論文の概要: Subjective Camera 0.1: Bridging Human Cognition and Visual Reconstruction through Sequence-Aware Sketch-Guided Diffusion
- arxiv url: http://arxiv.org/abs/2506.23711v2
- Date: Mon, 04 Aug 2025 16:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:57.289419
- Title: Subjective Camera 0.1: Bridging Human Cognition and Visual Reconstruction through Sequence-Aware Sketch-Guided Diffusion
- Title(参考訳): 主観カメラ0.1:シーケンス認識型スケッチ誘導拡散による人間の認知と視覚再構成
- Authors: Haoyang Chen, Dongfang Sun, Caoyuan Ma, Shiqin Wang, Kewei Zhang, Zheng Wang, Zhixiang Wang,
- Abstract要約: 物理的カメラが捉えられない意味のある瞬間を再構成する主観カメラの概念を導入する。
本稿では、現実のシーンを、アクセスしやすい主観的読み出しから再構築するためのフレームワークである主観カメラ0.1を提案する。
提案手法は,大規模なペアリングトレーニングデータを避け,一般化問題を緩和する。
- 参考スコア(独自算出の注目度): 8.477506348193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the concept of a subjective camera to reconstruct meaningful moments that physical cameras fail to capture. We propose Subjective Camera 0.1, a framework for reconstructing real-world scenes from readily accessible subjective readouts, i.e., textual descriptions and progressively drawn rough sketches. Built on optimization-based alignment of diffusion models, our approach avoids large-scale paired training data and mitigates generalization issues. To address the challenge of integrating multiple abstract concepts in real-world scenarios, we design a Sequence-Aware Sketch-Guided Diffusion framework with three loss terms for concept-wise sequential optimization, following the natural order of subjective readouts. Experiments on two datasets demonstrate that our method achieves state-of-the-art performance in image quality as well as spatial and semantic alignment with target scenes. User studies with 40 participants further confirm that our approach is consistently preferred.Our project page is at: subjective-camera.github.io
- Abstract(参考訳): 物理的カメラが捉えられない意味のある瞬間を再構成する主観カメラの概念を導入する。
本稿では,手軽に閲覧可能な主観的読み出しから現実のシーンを再構築するフレームワークである主観カメラ0.1を提案する。
拡散モデルの最適化に基づくアライメントにより,大規模なペア学習データを避け,一般化問題を緩和する。
実世界のシナリオに複数の抽象概念を統合するという課題に対処するため,主観的読み出しの自然な順序に従って,概念的逐次最適化のための3つの損失項を持つSequence-Aware Sketch-Guided Diffusionフレームワークを設計した。
2つのデータセットを用いた実験により,本手法は画像品質,空間的および意味的アライメントの両面において,最先端の性能を達成できることが示されている。
40人の参加者によるユーザスタディは、我々のアプローチが一貫して好まれていることをさらに確認します。
関連論文リスト
- SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - Uncertainty-Aware Diffusion Guided Refinement of 3D Scenes [34.19578921335553]
1枚の画像から3Dシーンを再構築することは、問題の本質が過小評価されているため、基本的に不適切な作業である。
本研究では,既存の画像から3D画像へのフィードフォワードネットワークにおいて,これらの制約に対処する。
入力画像の視界を超えた情報不足による性能低下を軽減するため、事前学習された潜伏映像拡散モデルを用いて、強い生成前を活用できる。
論文 参考訳(メタデータ) (2025-03-19T23:14:27Z) - SketchYourSeg: Mask-Free Subjective Image Segmentation via Freehand Sketches [116.1810651297801]
SketchYourSegは、主観的なイメージセグメンテーションのための強力なクエリモダリティとして、フリーハンドスケッチを確立している。
我々の評価は、様々なベンチマークで既存のアプローチよりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [59.77970844874235]
スパースビュー画像から高品質な3Dガウス画像を生成することができるフィードフォワード再構築フレームワークであるFreeSplatterを提案する。
FreeSplatterは、シーケンシャルな自己アテンションブロックで構成される、合理化されたトランスフォーマーアーキテクチャ上に構築されている。
テキスト・画像・3Dコンテンツ作成など,下流アプリケーションの生産性を高めるFreeSplatterの可能性を示す。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - Diorama: Unleashing Zero-shot Single-view 3D Indoor Scene Modeling [27.577720075952225]
ダイオラマ(Diorama)は、単視点のRGB観測から3Dシーンをモデル化する世界初のゼロショットオープンワールドシステムである。
この問題をサブタスクに分解し、それぞれに堅牢で一般化可能な解を導入することで、我々のアプローチの実現可能性を示す。
論文 参考訳(メタデータ) (2024-11-29T06:19:04Z) - KRONC: Keypoint-based Robust Camera Optimization for 3D Car Reconstruction [58.04846444985808]
KRONCは、オブジェクトに関する事前知識を活用して、セマンティックキーポイントを通してその表現を再構築することで、ビューポーズを推論する新しいアプローチである。
車両シーンに焦点を当てたKRONCは、キーポイントのバックプロジェクションを特異点に収束させることを目的とした光最適化問題の解として、ビューの位置を推定することができる。
論文 参考訳(メタデータ) (2024-09-09T08:08:05Z) - Multi-Style Facial Sketch Synthesis through Masked Generative Modeling [17.313050611750413]
本稿では,画像と対応するマルチスタイリズドスケッチを効率よく変換する軽量なエンドツーエンド合成モデルを提案する。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
提案手法は,複数のベンチマークで従来アルゴリズムより常に優れていた。
論文 参考訳(メタデータ) (2024-08-22T13:45:04Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Towards Robust and Expressive Whole-body Human Pose and Shape Estimation [51.457517178632756]
全体のポーズと形状の推定は、単眼画像から人体全体の異なる振る舞いを共同で予測することを目的としている。
既存の手法では、既存のシナリオの複雑さの下で、しばしば劣化したパフォーマンスを示す。
全身のポーズと形状推定の堅牢性を高める新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-14T08:17:42Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Deep Permutation Equivariant Structure from Motion [38.68492294795315]
既存のディープメソッドはステレオおよびマルチビューステレオ設定で高精度な3D再構成を生成する。
監視されていない再投影損失を最小限に抑え、カメラパラメータとシーン構造の両方を回復するニューラルネットワークアーキテクチャを提案する。
本手法は,内部校正と非校正設定の両方において,様々なデータセット上で実験を行い,従来の手法と同等の姿勢と構造を正確に復元することを示す。
論文 参考訳(メタデータ) (2021-04-14T08:50:06Z) - Perspective Plane Program Induction from a Single Image [85.28956922100305]
本研究では,自然画像の全体像を推定する逆グラフ問題について検討する。
我々は、この問題を、入力画像の最もよく記述されたカメラポーズとシーン構造を共同で発見するものとして定式化する。
提案するフレームワークであるP3Iは,探索に基づくアルゴリズムと勾配に基づくアルゴリズムを組み合わせて効率よく問題を解く。
論文 参考訳(メタデータ) (2020-06-25T21:18:58Z) - Deep Self-Supervised Representation Learning for Free-Hand Sketch [51.101565480583304]
フリーハンドスケッチにおける自己指導型表現学習の課題に対処する。
自己教師型学習パラダイムの成功の鍵は、スケッチ固有の設計にある。
提案手法は最先端の教師なし表現学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-03T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。