論文の概要: Subjective Camera: Bridging Human Cognition and Visual Reconstruction through Sequence-Aware Sketch-Guided Diffusion
- arxiv url: http://arxiv.org/abs/2506.23711v1
- Date: Mon, 30 Jun 2025 10:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.019822
- Title: Subjective Camera: Bridging Human Cognition and Visual Reconstruction through Sequence-Aware Sketch-Guided Diffusion
- Title(参考訳): 主観カメラ:シーケンス認識型スケッチ誘導拡散による人間の認知と視覚再構成
- Authors: Haoyang Chen, Dongfang Sun, Caoyuan Ma, Shiqin Wang, Kewei Zhang, Zheng Wang, Zhixiang Wang,
- Abstract要約: 本稿では,心的印象から現実のシーンを再構築する,ヒューマン・アズ・イメージ・デバイス・パラダイムである主観カメラを提案する。
このアプローチは、ユーザの描画シーケンスを先行として扱うことにより、言語の曖昧さとスケッチの抽象化の2つの制限を克服する。
- 参考スコア(独自算出の注目度): 8.477506348193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Subjective Camera, a human-as-imaging-device paradigm that reconstructs real-world scenes from mental impressions through synergistic use of verbal descriptions and progressive rough sketches. This approach overcomes dual limitations of language ambiguity and sketch abstraction by treating the user's drawing sequence as priors, effectively translating subjective perceptual expectations into photorealistic images. Existing approaches face three fundamental barriers: (1) user-specific subjective input biases, (2) huge modality gap between planar sketch and 3D priors in diffusion, and (3) sketch quality-sensitive performance degradation. Current solutions either demand resource-intensive model adaptation or impose impractical requirements on sketch precision. Our framework addresses these challenges through concept-sequential generation. (1) We establish robust appearance priors through text-reward optimization, and then implement sequence-aware disentangled generation that processes concepts in sketching order; these steps accommodate user-specific subjective expectation in a train-free way. (2) We employ latent optimization that effectively bridges the modality gap between planar sketches and 3D priors in diffusion. (3) Our hierarchical reward-guided framework enables the use of rough sketches without demanding artistic expertise. Comprehensive evaluation across diverse datasets demonstrates that our approach achieves state-of-the-art performance in maintaining both semantic and spatial coherence.
- Abstract(参考訳): 本稿では,人間の心の印象から現実のシーンを再構築する「主観的カメラ」を提案する。
このアプローチは、ユーザの描画シーケンスを先行として扱い、主観的な知覚的期待をフォトリアリスティックなイメージに効果的に翻訳することで、言語の曖昧さとスケッチの抽象化の2つの制限を克服する。
既存のアプローチでは,(1)ユーザ固有の主観的入力バイアス,(2)平面スケッチと拡散の3D先行との巨大なモダリティギャップ,(3)スケッチ品質に敏感な性能劣化という3つの基本的な障壁に直面している。
現在のソリューションは、リソース集約型モデル適応を要求するか、スケッチ精度に非現実的な要件を課すかのいずれかである。
我々のフレームワークは、概念系列生成を通じてこれらの課題に対処する。
1) テキスト・リワード最適化により頑健な外観を確立し, スケッチの順序で概念を処理するシーケンス認識不整合生成を実装した。
2) 平面スケッチと拡散の3次元前兆とのモダリティギャップを効果的に橋渡しする潜在最適化を用いる。
(3)我々の階層的な報酬誘導の枠組みは、芸術的専門知識を必要とせず、粗いスケッチの使用を可能にする。
多様なデータセットの包括的評価は,本手法が意味的および空間的コヒーレンスを維持する上で,最先端のパフォーマンスを実現することを示す。
関連論文リスト
- SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Multi-Style Facial Sketch Synthesis through Masked Generative Modeling [17.313050611750413]
本稿では,画像と対応するマルチスタイリズドスケッチを効率よく変換する軽量なエンドツーエンド合成モデルを提案する。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
提案手法は,複数のベンチマークで従来アルゴリズムより常に優れていた。
論文 参考訳(メタデータ) (2024-08-22T13:45:04Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Deep Self-Supervised Representation Learning for Free-Hand Sketch [51.101565480583304]
フリーハンドスケッチにおける自己指導型表現学習の課題に対処する。
自己教師型学習パラダイムの成功の鍵は、スケッチ固有の設計にある。
提案手法は最先端の教師なし表現学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-03T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。