論文の概要: Landscape-Awareness for Geometric View Diffusion Model
- arxiv url: http://arxiv.org/abs/2605.19865v1
- Date: Tue, 19 May 2026 13:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.383887
- Title: Landscape-Awareness for Geometric View Diffusion Model
- Title(参考訳): 幾何学的ビュー拡散モデルにおける景観認識
- Authors: Yan-Ting Chen, Hao-Wei Chen, Tsu-Ching Hsiao, Chun-Yi Lee,
- Abstract要約: そこで本稿では,視点条件付きモデルを用いて,更新を希望するビューに導くために,ランドスケープを誤解させるスコアベース手法を提案する。
実験結果から, 高信頼度, 高信頼度, 高信頼度, 高信頼度, 高信頼度, 高信頼度, 高信頼度が得られた。
- 参考スコア(独自算出の注目度): 16.61084951654033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate camera viewpoint estimation under sparse-view conditions remains challenging, particularly in two-view scenarios. Recent approaches leverage diffusion models such as Zero123 to synthesize novel views conditioned on relative viewpoint, showing promising results when repurposed for viewpoint estimation via optimization with MSE loss. However, existing methods often suffer from nonconvex loss landscape with numerous local minima, making them sensitive to initialization and reliant on naive multistart strategies. We analyze these optimization challenges and visualize failure cases, showing that geometric ambiguities, such as symmetry and self-similarity, can mislead gradient-based updates toward incorrect viewpoints. To address these limitations, we propose a score-based method that reshapes the optimization landscape to guide updates toward the ground-truth viewpoint, followed by a refinement stage using a viewpoint-conditioned diffusion model. Experiments show that our method improves convergence, reduces reliance on brute-force sampling, and achieves competitive accuracy with higher sample-efficiency.
- Abstract(参考訳): スパースビュー条件下での正確なカメラ視点推定は、特に2視点シナリオにおいて困難である。
最近のアプローチでは、Zero123のような拡散モデルを利用して、相対的な視点で条件付けられた新しいビューを合成し、MSE損失を伴う最適化による視点推定に再利用された場合、有望な結果を示す。
しかし、既存の手法は、多くの局所最小値を持つ非凸損失ランドスケープに悩まされることが多く、初期化に敏感であり、単純なマルチスタート戦略に依存している。
これらの最適化課題を分析し,対称性や自己相似性といった幾何学的曖昧さが,不正確な視点に向けて勾配に基づく更新を誤解させる可能性があることを示す。
これらの制約に対処するために,最適化ランドスケープを再評価するスコアベース手法を提案し,その後,視点条件付き拡散モデルを用いた改良段階を提示する。
実験により, 本手法は収束性を改善し, ブラトフォースサンプリングへの依存を低減し, 高い試料効率で競合精度を達成できることが確認された。
関連論文リスト
- Meta-Learned Adaptive Optimization for Robust Human Mesh Recovery with Uncertainty-Aware Parameter Updates [0.27998963147546146]
そこで本研究では,テスト時間改善時に不確実性を認識した適応更新を組み込むメタラーニングフレームワークを提案する。
提案手法は,MPJPEを3DPWで10.3,Human3.6Mで8.0削減し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-27T14:16:21Z) - A Single Image and Multimodality Is All You Need for Novel View Synthesis [8.273110298367644]
スパースマルチモーダルレンジ測定を組み込むことによって,拡散に基づくアプローチの限界を克服する上で,単純かつ効果的な方法が提供されることを示す。
本稿では,自動車レーダやLiDARなどの極端にスパースな距離センシングデータを活用するマルチモーダル深度再構成フレームワークを提案する。
本手法は,局所化ガウス過程の定式化を用いて,角領域の深さをモデル化し,計算効率の良い推論を可能にする。
論文 参考訳(メタデータ) (2026-02-20T00:13:11Z) - Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。
提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。
本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文 参考訳(メタデータ) (2025-12-27T17:08:03Z) - Navigating the Exploration-Exploitation Tradeoff in Inference-Time Scaling of Diffusion Models [11.813933389519358]
推論時間スケーリングは言語モデルにおいて顕著に成功したが、拡散モデルへの適応は未解明のままである。
スケジュールと適応温度の2つの戦略を提案する。
提案手法は, 騒音評価の総数を増やすことなく, 試料品質を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-17T13:35:38Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Deblurring via Stochastic Refinement [85.42730934561101]
条件付き拡散モデルに基づくブラインドデブロアリングのための代替フレームワークを提案する。
提案手法は,PSNRなどの歪み指標の点で競合する。
論文 参考訳(メタデータ) (2021-12-05T04:36:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。