論文の概要: All-in-One: Transferring Vision Foundation Models into Stereo Matching
- arxiv url: http://arxiv.org/abs/2412.09912v1
- Date: Fri, 13 Dec 2024 06:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:52.385955
- Title: All-in-One: Transferring Vision Foundation Models into Stereo Matching
- Title(参考訳): オールインワン:ビジョンファウンデーションモデルをステレオマッチングに変換する
- Authors: Jingyi Zhou, Haoyu Zhang, Jiakang Yuan, Peng Ye, Tao Chen, Hao Jiang, Meiya Chen, Yangyang Zhang,
- Abstract要約: AIO-Stereoは、複数の異種VFMからの知識を柔軟に選択し、単一のステレオマッチングモデルに転送することができる。
AIO-Stereoは、複数のデータセットで最先端のパフォーマンスを達成し、ミドルベリーデータセットで1st$をランク付けしている。
- 参考スコア(独自算出の注目度): 13.781452399651887
- License:
- Abstract: As a fundamental vision task, stereo matching has made remarkable progress. While recent iterative optimization-based methods have achieved promising performance, their feature extraction capabilities still have room for improvement. Inspired by the ability of vision foundation models (VFMs) to extract general representations, in this work, we propose AIO-Stereo which can flexibly select and transfer knowledge from multiple heterogeneous VFMs to a single stereo matching model. To better reconcile features between heterogeneous VFMs and the stereo matching model and fully exploit prior knowledge from VFMs, we proposed a dual-level feature utilization mechanism that aligns heterogeneous features and transfers multi-level knowledge. Based on the mechanism, a dual-level selective knowledge transfer module is designed to selectively transfer knowledge and integrate the advantages of multiple VFMs. Experimental results show that AIO-Stereo achieves start-of-the-art performance on multiple datasets and ranks $1^{st}$ on the Middlebury dataset and outperforms all the published work on the ETH3D benchmark.
- Abstract(参考訳): 基本的なビジョンタスクとして、ステレオマッチングは目覚ましい進歩を遂げた。
最近の反復最適化手法は有望な性能を達成したが、その特徴抽出機能には改善の余地がある。
本稿では,視覚基礎モデル(VFM)の一般表現抽出能力に着想を得て,複数の異種VFMからの知識を柔軟に選択し,単一のステレオマッチングモデルに転送できるAIO-Stereoを提案する。
不均一なVFMとステレオマッチングモデル間の特徴の整合性を向上し、VFMからの事前知識をフル活用するために、不均一な特徴を整合させて多レベル知識を伝達するデュアルレベル特徴利用機構を提案する。
この機構に基づいて、二段階選択的知識伝達モジュールは、知識を選択的に伝達し、複数のVFMの利点を統合するように設計されている。
実験結果から,AIO-Stereoは複数のデータセットで最先端のパフォーマンスを達成し,Middleburyデータセットで1^{st}$をランク付けし,ETH3Dベンチマークで公開されたすべての成果を上回る結果を得た。
関連論文リスト
- Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models [39.127620891450526]
マルチモーダルデータ生成と濃密な視覚知覚の両方を扱うために,統一的で汎用的な拡散型フレームワークDiff-2-in-1を導入する。
また,従来のトレーニングセットの分布を反映したマルチモーダルデータを作成するために,デノナイジングネットワークを利用することにより,マルチモーダル生成による識別的視覚知覚をさらに強化する。
論文 参考訳(メタデータ) (2024-11-07T18:59:53Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Playing to Vision Foundation Model's Strengths in Stereo Matching [13.887661472501618]
本研究は,視覚基礎モデル(VFM)をステレオマッチングに適用するための有効なアプローチを初めて探求した。
当社のViTアダプタは,空間微分,パッチアテンション融合,クロスアテンションの3種類のモジュール上に構築されている。
ViTAStereoは、エラーピクセルのパーセンテージで2番目に高いネットワークであるStereoBaseを約7.9%上回り、耐性は3ピクセルである。
論文 参考訳(メタデータ) (2024-04-09T12:34:28Z) - FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels [57.05834683261658]
FSDv2は、手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを排除しつつ、以前のFSDv1を単純化することを目的とした進化である。
仮想ボクセルエンコーダ,仮想ボクセルミキサー,仮想ボクセル割り当て戦略など,仮想ボクセル概念を補完するコンポーネント群を開発した。
論文 参考訳(メタデータ) (2023-08-07T17:59:48Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis [16.930624128228658]
音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-08-30T02:08:06Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。