論文の概要: PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models
- arxiv url: http://arxiv.org/abs/2507.08400v1
- Date: Fri, 11 Jul 2025 08:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.290877
- Title: PanMatch: Unleashing the Potential of Large Vision Models for Unified Matching Models
- Title(参考訳): PanMatch: 統一マッチングモデルのための大規模ビジョンモデルの可能性
- Authors: Yongjian Zhang, Longguang Wang, Kunhong Li, Ye Zhang, Yun Wang, Liang Lin, Yulan Guo,
- Abstract要約: 頑健な対応マッチングのための汎用基盤モデルであるPanMatchを提案する。
我々の重要な洞察は、任意の2フレーム対応タスクが2次元変位推定フレームワーク内で処理可能であることである。
PanMatchは、偏差推定アルゴリズムを前例のない一般化能力で実現し、マルチタスク統合を実現する。
- 参考スコア(独自算出の注目度): 80.65273820998875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents PanMatch, a versatile foundation model for robust correspondence matching. Unlike previous methods that rely on task-specific architectures and domain-specific fine-tuning to support tasks like stereo matching, optical flow or feature matching, our key insight is that any two-frame correspondence matching task can be addressed within a 2D displacement estimation framework using the same model weights. Such a formulation eliminates the need for designing specialized unified architectures or task-specific ensemble models. Instead, it achieves multi-task integration by endowing displacement estimation algorithms with unprecedented generalization capabilities. To this end, we highlight the importance of a robust feature extractor applicable across multiple domains and tasks, and propose the feature transformation pipeline that leverage all-purpose features from Large Vision Models to endow matching baselines with zero-shot cross-view matching capabilities. Furthermore, we assemble a cross-domain dataset with near 1.8 million samples from stereo matching, optical flow, and feature matching domains to pretrain PanMatch. We demonstrate the versatility of PanMatch across a wide range of domains and downstream tasks using the same model weights. Our model outperforms UniMatch and Flow-Anything on cross-task evaluations, and achieves comparable performance to most state-of-the-art task-specific algorithms on task-oriented benchmarks. Additionally, PanMatch presents unprecedented zero-shot performance in abnormal scenarios, such as rainy day and satellite imagery, where most existing robust algorithms fail to yield meaningful results.
- Abstract(参考訳): この研究は、堅牢な対応マッチングのための汎用基盤モデルであるPanMatchを提示する。
ステレオマッチングやオプティカルフロー,特徴マッチングといったタスクをサポートするために,タスク固有のアーキテクチャやドメイン固有の微調整に依存する従来の手法とは異なり,我々の重要な洞察は,同じモデル重みを用いた2次元変位推定フレームワーク内で,任意の2フレーム対応タスクに対処できることである。
このような定式化は、特別な統合アーキテクチャやタスク固有のアンサンブルモデルを設計する必要をなくす。
代わりに、偏差推定アルゴリズムに前例のない一般化機能を持たせることでマルチタスク統合を実現する。
この目的のために、複数のドメインやタスクにまたがるロバストな特徴抽出器の重要性を強調し、Large Vision Modelsの全目的機能を活用して、ゼロショットのクロスビューマッチング機能を備えたベースラインのマッチングを実現する機能変換パイプラインを提案する。
さらに、ステレオマッチング、オプティカルフロー、特徴マッチングドメインから約1.8万のサンプルを収集し、PanMatchを事前訓練するクロスドメインデータセットを組み立てる。
同じモデル重みを使って、広範囲のドメインや下流タスクにまたがるPanMatchの汎用性を実証する。
本モデルでは,タスク指向ベンチマークにおけるタスク固有アルゴリズムに比較して,マルチタスク評価におけるUniMatchおよびFlow-Anythingの性能が向上する。
さらに、PanMatchは雨の日や衛星画像のような異常なシナリオでは前例のないゼロショットのパフォーマンスを示し、既存のロバストなアルゴリズムでは有意義な結果が得られない。
関連論文リスト
- Towards Unified Benchmark and Models for Multi-Modal Perceptual Metrics [37.86612817818566]
CLIPや大規模マルチモーダルモデル(LMM)などの汎用視覚言語モデルは、ゼロショット知覚メトリクスとして適用することができる。
提案するUniSim-Benchは、7つのマルチモーダルな知覚的類似性タスクと合計25のデータセットを包含するベンチマークである。
我々の評価では、汎用モデルは平均的に合理的に機能するが、個々のタスクの特化モデルに遅れが生じることが多い。
論文 参考訳(メタデータ) (2024-12-13T22:38:09Z) - All-in-One Image Coding for Joint Human-Machine Vision with Multi-Path Aggregation [28.62276713652864]
我々は,人間の共同ビジョンのための既存の符号化モデルにMPA(Multi-Path Aggregation)を統合することを提案する。
MPAはタスク固有のパスに遅延特徴を割り当てるために予測器を使用する。
MPAはタスク特化最適化と多目的最適化の両方において最先端の手法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-09-29T11:14:21Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Multi-Domain Learning with Modulation Adapters [33.54630534228469]
マルチドメイン学習は、複数のドメインにまたがる画像分類など、関連するタスクを同時に処理することを目的としている。
変調アダプタは、各タスクに対して乗法的にモデルの畳み込み重みを更新する。
我々のアプローチは、既存の最先端のアプローチと同等かそれ以上の精度で、優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-07-17T14:40:16Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing [110.4684789199555]
シナリオベースのセマンティックパーシングを導入し、最初に発話の「scenario」を曖昧にする必要がある元のタスクの変種を紹介します。
この定式化により、タスクの粗くきめ細かな側面を分離することが可能となり、それぞれがオフザシェルフニューラルネットワークモジュールで解決される。
私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を得られるようになります。
論文 参考訳(メタデータ) (2022-02-02T08:00:21Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。