論文の概要: All-in-One: Transferring Vision Foundation Models into Stereo Matching
- arxiv url: http://arxiv.org/abs/2412.09912v1
- Date: Fri, 13 Dec 2024 06:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:37:48.873631
- Title: All-in-One: Transferring Vision Foundation Models into Stereo Matching
- Title(参考訳): オールインワン:ビジョンファウンデーションモデルをステレオマッチングに変換する
- Authors: Jingyi Zhou, Haoyu Zhang, Jiakang Yuan, Peng Ye, Tao Chen, Hao Jiang, Meiya Chen, Yangyang Zhang,
- Abstract要約: AIO-Stereoは、複数の異種VFMからの知識を柔軟に選択し、単一のステレオマッチングモデルに転送することができる。
AIO-Stereoは、複数のデータセットで最先端のパフォーマンスを達成し、ミドルベリーデータセットで1st$をランク付けしている。
- 参考スコア(独自算出の注目度): 13.781452399651887
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As a fundamental vision task, stereo matching has made remarkable progress. While recent iterative optimization-based methods have achieved promising performance, their feature extraction capabilities still have room for improvement. Inspired by the ability of vision foundation models (VFMs) to extract general representations, in this work, we propose AIO-Stereo which can flexibly select and transfer knowledge from multiple heterogeneous VFMs to a single stereo matching model. To better reconcile features between heterogeneous VFMs and the stereo matching model and fully exploit prior knowledge from VFMs, we proposed a dual-level feature utilization mechanism that aligns heterogeneous features and transfers multi-level knowledge. Based on the mechanism, a dual-level selective knowledge transfer module is designed to selectively transfer knowledge and integrate the advantages of multiple VFMs. Experimental results show that AIO-Stereo achieves start-of-the-art performance on multiple datasets and ranks $1^{st}$ on the Middlebury dataset and outperforms all the published work on the ETH3D benchmark.
- Abstract(参考訳): 基本的なビジョンタスクとして、ステレオマッチングは目覚ましい進歩を遂げた。
最近の反復最適化手法は有望な性能を達成したが、その特徴抽出機能には改善の余地がある。
本稿では,視覚基礎モデル(VFM)の一般表現抽出能力に着想を得て,複数の異種VFMからの知識を柔軟に選択し,単一のステレオマッチングモデルに転送できるAIO-Stereoを提案する。
不均一なVFMとステレオマッチングモデル間の特徴の整合性を向上し、VFMからの事前知識をフル活用するために、不均一な特徴を整合させて多レベル知識を伝達するデュアルレベル特徴利用機構を提案する。
この機構に基づいて、二段階選択的知識伝達モジュールは、知識を選択的に伝達し、複数のVFMの利点を統合するように設計されている。
実験結果から,AIO-Stereoは複数のデータセットで最先端のパフォーマンスを達成し,Middleburyデータセットで1^{st}$をランク付けし,ETH3Dベンチマークで公開されたすべての成果を上回る結果を得た。
関連論文リスト
- UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models [39.127620891450526]
マルチモーダルデータ生成と濃密な視覚知覚の両方を扱うために,統一的で汎用的な拡散型フレームワークDiff-2-in-1を導入する。
また,従来のトレーニングセットの分布を反映したマルチモーダルデータを作成するために,デノナイジングネットワークを利用することにより,マルチモーダル生成による識別的視覚知覚をさらに強化する。
論文 参考訳(メタデータ) (2024-11-07T18:59:53Z) - Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning [29.33199582163445]
ビジョン・ファンデーション・モデル (VFM) は、多くの下流タスクにおいて卓越した性能を示した。
それら固有の表現バイアスのため、VFMは異なる視覚タスクにまたがる利点と欠点を示す。
本稿では,VFM 委員会からの知識を適応的に蒸留し,マルチタスク学習を強化する,新規で汎用性の高い "Swiss Army Knife" (SAK) ソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:32:39Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels [57.05834683261658]
FSDv2は、手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを排除しつつ、以前のFSDv1を単純化することを目的とした進化である。
仮想ボクセルエンコーダ,仮想ボクセルミキサー,仮想ボクセル割り当て戦略など,仮想ボクセル概念を補完するコンポーネント群を開発した。
論文 参考訳(メタデータ) (2023-08-07T17:59:48Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。