論文の概要: Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World
- arxiv url: http://arxiv.org/abs/2505.08607v1
- Date: Tue, 13 May 2025 14:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.609941
- Title: Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World
- Title(参考訳): 大規模混合画像を用いた実世界のゼロショットステレオマッチング
- Authors: Yuran Wang, Yingping Liang, Ying Fu,
- Abstract要約: ステレオマッチング法は、密度の高いピクセル単位の基底真理ラベルに依存している。
ラベル付きデータの不足と、合成画像と実世界の画像のドメインギャップは、注目すべき課題である。
視覚基盤モデルと大規模混合画像ソースの両方を活用する新しいフレームワーク textbfBooSTer を提案する。
- 参考スコア(独自算出の注目度): 8.56549004133167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stereo matching methods rely on dense pixel-wise ground truth labels, which are laborious to obtain, especially for real-world datasets. The scarcity of labeled data and domain gaps between synthetic and real-world images also pose notable challenges. In this paper, we propose a novel framework, \textbf{BooSTer}, that leverages both vision foundation models and large-scale mixed image sources, including synthetic, real, and single-view images. First, to fully unleash the potential of large-scale single-view images, we design a data generation strategy combining monocular depth estimation and diffusion models to generate dense stereo matching data from single-view images. Second, to tackle sparse labels in real-world datasets, we transfer knowledge from monocular depth estimation models, using pseudo-mono depth labels and a dynamic scale- and shift-invariant loss for additional supervision. Furthermore, we incorporate vision foundation model as an encoder to extract robust and transferable features, boosting accuracy and generalization. Extensive experiments on benchmark datasets demonstrate the effectiveness of our approach, achieving significant improvements in accuracy over existing methods, particularly in scenarios with limited labeled data and domain shifts.
- Abstract(参考訳): ステレオマッチング法は、特に実世界のデータセットにおいて、取得に苦労する、高密度なピクセル単位の基底真理ラベルに依存している。
ラベル付きデータの不足と、合成画像と実世界の画像のドメインギャップもまた、注目すべき課題である。
本稿では,視覚基盤モデルと,合成画像,実画像,単視点画像を含む大規模混合画像ソースを併用した新しいフレームワークである「textbf{BooSTer}」を提案する。
まず,大規模一視点画像の可能性を完全に解き放つために,単眼深度推定モデルと拡散モデルを組み合わせたデータ生成手法を設計し,一視点画像から密集したステレオマッチングデータを生成する。
第二に、現実世界のデータセットにおけるスパースラベルに取り組むために、擬似モノ深度ラベルと動的スケール・シフト不変損失を用いて、単眼深度推定モデルから知識を伝達する。
さらに、視覚基盤モデルをエンコーダとして組み込んで、堅牢で伝達可能な特徴を抽出し、精度を高め、一般化する。
ベンチマークデータセットの大規模な実験は、既存の手法、特にラベル付きデータやドメインシフトに制限のあるシナリオにおいて、アプローチの有効性を示し、既存の手法よりも精度が大幅に向上した。
関連論文リスト
- Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-14T03:01:36Z) - LMHaze: Intensity-aware Image Dehazing with a Large-scale Multi-intensity Real Haze Dataset [14.141433473509826]
本稿では,大規模で高品質な実世界のデータセットLMHazeを紹介する。
LMHazeは、屋内および屋外の多様な環境で撮影された、ヘイズフリーとヘイズフリーの2つの画像で構成されている。
そこで本研究では,Mambaをベースとした混合実験モデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T15:20:02Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。