論文の概要: PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts
- arxiv url: http://arxiv.org/abs/2603.01650v2
- Date: Tue, 03 Mar 2026 07:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.625073
- Title: PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts
- Title(参考訳): PromptStereo:Zero-Shot Stereo Matching by Structure and Motion Prompts
- Authors: Xianqi Wang, Hao Yang, Hangtian Wang, Junda Cheng, Gangwei Xu, Min Lin, Xin Yang,
- Abstract要約: 本稿では,単分子深度基礎モデルのデコーダをベースとした新しい反復改良モジュール Prompt Recurrent Unit (PRU) を提案する。
モノクラー構造とステレオモーションキューをデコーダに組み込むことで、PRUはモノクラー深度基礎モデルの潜在表現を絶対的なステレオスケール情報で強化する。
実験の結果,PromptStereoは複数のデータセットにまたがる最先端のゼロショット一般化性能を達成できた。
- 参考スコア(独自算出の注目度): 25.236900618180652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern stereo matching methods have leveraged monocular depth foundation models to achieve superior zero-shot generalization performance. However, most existing methods primarily focus on extracting robust features for cost volume construction or disparity initialization. At the same time, the iterative refinement stage, which is also crucial for zero-shot generalization, remains underexplored. Some methods treat monocular depth priors as guidance for iteration, but conventional GRU-based architectures struggle to exploit them due to the limited representation capacity. In this paper, we propose Prompt Recurrent Unit (PRU), a novel iterative refinement module based on the decoder of monocular depth foundation models. By integrating monocular structure and stereo motion cues as prompts into the decoder, PRU enriches the latent representations of monocular depth foundation models with absolute stereo-scale information while preserving their inherent monocular depth priors. Experiments demonstrate that our PromptStereo achieves state-of-the-art zero-shot generalization performance across multiple datasets, while maintaining comparable or faster inference speed. Our findings highlight prompt-guided iterative refinement as a promising direction for zero-shot stereo matching.
- Abstract(参考訳): 現代のステレオマッチング法は、より優れたゼロショット一般化性能を達成するために単眼深度基礎モデルを活用している。
しかし、既存のほとんどの手法は、コストボリューム構築や不均一初期化のための堅牢な特徴の抽出に重点を置いている。
同時に、ゼロショットの一般化にも欠かせない反復的洗練段階が未解明のままである。
いくつかの手法では、単眼の奥行きを反復のガイダンスとして扱うが、従来のGRUベースのアーキテクチャでは表現能力が限られているため、それらを活用するのに苦労している。
本稿では,単分子深度基礎モデルのデコーダをベースとした新しい反復改良モジュールであるPrompt Recurrent Unit (PRU)を提案する。
モノクラー構造とステレオモーションキューをデコーダに組み込むことにより、PRUはモノクラー深度基礎モデルの潜伏表現を絶対的なステレオスケール情報で強化し、固有のモノクラー深度事前を保存する。
PromptStereoは、複数のデータセットにまたがる最先端のゼロショット一般化性能を達成しつつ、同等あるいは高速な推論速度を維持しながら、実証した。
本研究は,ゼロショットステレオマッチングの有望な方向として,プロンプトガイドによる反復的改善に注目した。
関連論文リスト
- HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [70.67610495024459]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - DEFOM-Stereo: Depth Foundation Model Based Stereo Matching [12.22373236061929]
DEFOM-Stereoはモノクローナルディープキューとの堅牢なステレオマッチングを容易にするために構築されている。
SOTA法と比較してより強いゼロショットの一般化があることが確認された。
我々のモデルは、個々のベンチマークにおいて、以前のモデルより同時に優れています。
論文 参考訳(メタデータ) (2025-01-16T10:59:29Z) - MonSter++: Unified Stereo Matching, Multi-view Stereo, and Real-time Stereo with Monodepth Priors [52.39201779505421]
MonSter++は多視点深度推定の基礎モデルである。
多視点深度推定に単眼深度推定を組み込む。
MonSter++はステレオマッチングとマルチビューステレオの両方で新しい最先端を実現する。
論文 参考訳(メタデータ) (2025-01-15T08:11:24Z) - Reversing the cycle: self-supervised deep stereo through enhanced
monocular distillation [51.714092199995044]
多くの分野において、自己教師付き学習ソリューションは急速に進化し、教師付きアプローチでギャップを埋めている。
本稿では,両者の相互関係を逆転する自己教師型パラダイムを提案する。
深層ステレオネットワークを訓練するために,単分子完備ネットワークを通じて知識を抽出する。
論文 参考訳(メタデータ) (2020-08-17T07:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。