論文の概要: Subjective Camera: Bridging Human Cognition and Visual Reconstruction through Sequence-Aware Sketch-Guided Diffusion
- arxiv url: http://arxiv.org/abs/2506.23711v1
- Date: Mon, 30 Jun 2025 10:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.019822
- Title: Subjective Camera: Bridging Human Cognition and Visual Reconstruction through Sequence-Aware Sketch-Guided Diffusion
- Title(参考訳): 主観カメラ:シーケンス認識型スケッチ誘導拡散による人間の認知と視覚再構成
- Authors: Haoyang Chen, Dongfang Sun, Caoyuan Ma, Shiqin Wang, Kewei Zhang, Zheng Wang, Zhixiang Wang,
- Abstract要約: 本稿では,心的印象から現実のシーンを再構築する,ヒューマン・アズ・イメージ・デバイス・パラダイムである主観カメラを提案する。
このアプローチは、ユーザの描画シーケンスを先行として扱うことにより、言語の曖昧さとスケッチの抽象化の2つの制限を克服する。
- 参考スコア(独自算出の注目度): 8.477506348193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Subjective Camera, a human-as-imaging-device paradigm that reconstructs real-world scenes from mental impressions through synergistic use of verbal descriptions and progressive rough sketches. This approach overcomes dual limitations of language ambiguity and sketch abstraction by treating the user's drawing sequence as priors, effectively translating subjective perceptual expectations into photorealistic images. Existing approaches face three fundamental barriers: (1) user-specific subjective input biases, (2) huge modality gap between planar sketch and 3D priors in diffusion, and (3) sketch quality-sensitive performance degradation. Current solutions either demand resource-intensive model adaptation or impose impractical requirements on sketch precision. Our framework addresses these challenges through concept-sequential generation. (1) We establish robust appearance priors through text-reward optimization, and then implement sequence-aware disentangled generation that processes concepts in sketching order; these steps accommodate user-specific subjective expectation in a train-free way. (2) We employ latent optimization that effectively bridges the modality gap between planar sketches and 3D priors in diffusion. (3) Our hierarchical reward-guided framework enables the use of rough sketches without demanding artistic expertise. Comprehensive evaluation across diverse datasets demonstrates that our approach achieves state-of-the-art performance in maintaining both semantic and spatial coherence.
- Abstract(参考訳): 本稿では,人間の心の印象から現実のシーンを再構築する「主観的カメラ」を提案する。
このアプローチは、ユーザの描画シーケンスを先行として扱い、主観的な知覚的期待をフォトリアリスティックなイメージに効果的に翻訳することで、言語の曖昧さとスケッチの抽象化の2つの制限を克服する。
既存のアプローチでは,(1)ユーザ固有の主観的入力バイアス,(2)平面スケッチと拡散の3D先行との巨大なモダリティギャップ,(3)スケッチ品質に敏感な性能劣化という3つの基本的な障壁に直面している。
現在のソリューションは、リソース集約型モデル適応を要求するか、スケッチ精度に非現実的な要件を課すかのいずれかである。
我々のフレームワークは、概念系列生成を通じてこれらの課題に対処する。
1) テキスト・リワード最適化により頑健な外観を確立し, スケッチの順序で概念を処理するシーケンス認識不整合生成を実装した。
2) 平面スケッチと拡散の3次元前兆とのモダリティギャップを効果的に橋渡しする潜在最適化を用いる。
(3)我々の階層的な報酬誘導の枠組みは、芸術的専門知識を必要とせず、粗いスケッチの使用を可能にする。
多様なデータセットの包括的評価は,本手法が意味的および空間的コヒーレンスを維持する上で,最先端のパフォーマンスを実現することを示す。
関連論文リスト
- SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - Uncertainty-Aware Diffusion Guided Refinement of 3D Scenes [34.19578921335553]
1枚の画像から3Dシーンを再構築することは、問題の本質が過小評価されているため、基本的に不適切な作業である。
本研究では,既存の画像から3D画像へのフィードフォワードネットワークにおいて,これらの制約に対処する。
入力画像の視界を超えた情報不足による性能低下を軽減するため、事前学習された潜伏映像拡散モデルを用いて、強い生成前を活用できる。
論文 参考訳(メタデータ) (2025-03-19T23:14:27Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [59.77970844874235]
スパースビュー画像から高品質な3Dガウス画像を生成することができるフィードフォワード再構築フレームワークであるFreeSplatterを提案する。
FreeSplatterは、シーケンシャルな自己アテンションブロックで構成される、合理化されたトランスフォーマーアーキテクチャ上に構築されている。
テキスト・画像・3Dコンテンツ作成など,下流アプリケーションの生産性を高めるFreeSplatterの可能性を示す。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - Diorama: Unleashing Zero-shot Single-view 3D Indoor Scene Modeling [27.577720075952225]
ダイオラマ(Diorama)は、単視点のRGB観測から3Dシーンをモデル化する世界初のゼロショットオープンワールドシステムである。
この問題をサブタスクに分解し、それぞれに堅牢で一般化可能な解を導入することで、我々のアプローチの実現可能性を示す。
論文 参考訳(メタデータ) (2024-11-29T06:19:04Z) - KRONC: Keypoint-based Robust Camera Optimization for 3D Car Reconstruction [58.04846444985808]
KRONCは、オブジェクトに関する事前知識を活用して、セマンティックキーポイントを通してその表現を再構築することで、ビューポーズを推論する新しいアプローチである。
車両シーンに焦点を当てたKRONCは、キーポイントのバックプロジェクションを特異点に収束させることを目的とした光最適化問題の解として、ビューの位置を推定することができる。
論文 参考訳(メタデータ) (2024-09-09T08:08:05Z) - Multi-Style Facial Sketch Synthesis through Masked Generative Modeling [17.313050611750413]
本稿では,画像と対応するマルチスタイリズドスケッチを効率よく変換する軽量なエンドツーエンド合成モデルを提案する。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
提案手法は,複数のベンチマークで従来アルゴリズムより常に優れていた。
論文 参考訳(メタデータ) (2024-08-22T13:45:04Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Towards Robust and Expressive Whole-body Human Pose and Shape Estimation [51.457517178632756]
全体のポーズと形状の推定は、単眼画像から人体全体の異なる振る舞いを共同で予測することを目的としている。
既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。
全身のポーズと形状推定の堅牢性を高める新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:17:42Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Deep Permutation Equivariant Structure from Motion [38.68492294795315]
既存のディープメソッドはステレオおよびマルチビューステレオ設定で高精度な3D再構成を生成する。
監視されていない再投影損失を最小限に抑え、カメラパラメータとシーン構造の両方を回復するニューラルネットワークアーキテクチャを提案する。
本手法は,内部校正と非校正設定の両方において,様々なデータセット上で実験を行い,従来の手法と同等の姿勢と構造を正確に復元することを示す。
論文 参考訳(メタデータ) (2021-04-14T08:50:06Z) - Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。
我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文 参考訳(メタデータ) (2020-06-25T21:18:58Z) - Deep Self-Supervised Representation Learning for Free-Hand Sketch [51.101565480583304]
フリーハンドスケッチにおける自己指導型表現学習の課題に対処する。
自己教師型学習パラダイムの成功の鍵は、スケッチ固有の設計にある。
提案手法は最先端の教師なし表現学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-03T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。