論文の概要: MATCHA:Towards Matching Anything
- arxiv url: http://arxiv.org/abs/2501.14945v1
- Date: Fri, 24 Jan 2025 22:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:49.433005
- Title: MATCHA:Towards Matching Anything
- Title(参考訳): MATCHA: あらゆるものにマッチする
- Authors: Fei Xue, Sven Elflein, Laura Leal-Taixé, Qunjie Zhou,
- Abstract要約: それらをすべて支配するために設計された統合機能モデルであるMATCHAを提案する。
我々は,MATCHAが幾何的,意味的,時間的マッチングタスクにまたがる最先端の手法を一貫して上回っていることを示す。
私たちの知る限りでは、MATCHAは単一の統一機能で多様なマッチングタスクに効果的に取り組むことができる最初のアプローチです。
- 参考スコア(独自算出の注目度): 39.63276309603683
- License:
- Abstract: Establishing correspondences across images is a fundamental challenge in computer vision, underpinning tasks like Structure-from-Motion, image editing, and point tracking. Traditional methods are often specialized for specific correspondence types, geometric, semantic, or temporal, whereas humans naturally identify alignments across these domains. Inspired by this flexibility, we propose MATCHA, a unified feature model designed to ``rule them all'', establishing robust correspondences across diverse matching tasks. Building on insights that diffusion model features can encode multiple correspondence types, MATCHA augments this capacity by dynamically fusing high-level semantic and low-level geometric features through an attention-based module, creating expressive, versatile, and robust features. Additionally, MATCHA integrates object-level features from DINOv2 to further boost generalization, enabling a single feature capable of matching anything. Extensive experiments validate that MATCHA consistently surpasses state-of-the-art methods across geometric, semantic, and temporal matching tasks, setting a new foundation for a unified approach for the fundamental correspondence problem in computer vision. To the best of our knowledge, MATCHA is the first approach that is able to effectively tackle diverse matching tasks with a single unified feature.
- Abstract(参考訳): 画像間の対応を確立することは、コンピュータビジョンにおける基本的な課題であり、Structure-from-Motion、画像編集、ポイントトラッキングといったタスクの基盤となる。
伝統的な手法は、しばしば特定の対応タイプ、幾何学的、意味的、時間的タイプに特化しているが、人間は自然にこれらの領域間のアライメントを識別する。
この柔軟性に触発されて、我々は 'rule them all'' を設計した統一機能モデル MATCHA を提案し、多様なマッチングタスクにまたがる堅牢な対応を確立する。
拡散モデルの特徴が複数の対応型をエンコードできるという洞察に基づいて、MATCHAは、注意に基づくモジュールを通して高レベルの意味的および低レベルの幾何学的特徴を動的に融合し、表現的で汎用的で堅牢な特徴を作成することにより、この能力を増強する。
さらに、MATCHAは、DINOv2のオブジェクトレベルの機能を統合して、さらなる一般化を促進し、どんなものでもマッチできる単一の機能を可能にする。
広範囲にわたる実験により、MATCHAは幾何学的、意味論的、時間的マッチングタスクにまたがる最先端の手法を一貫して超越し、コンピュータビジョンにおける基本的な対応問題に対する統一的なアプローチの新たな基盤を確立した。
私たちの知る限りでは、MATCHAは単一の統一機能で多様なマッチングタスクに効果的に取り組むことができる最初のアプローチです。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - ComPtr: Towards Diverse Bi-source Dense Prediction Tasks via A Simple
yet General Complementary Transformer [91.43066633305662]
本稿では,多種多様な二ソース密度予測タスクのためのアンダーラインComPlementaryアンダーライン変換器textbfComPtrを提案する。
ComPtrは異なる入力を等しく扱い、変換器上にシーケンス・ツー・シーケンスの形で効率的な密な相互作用モデルを構築する。
論文 参考訳(メタデータ) (2023-07-23T15:17:45Z) - A System for Morphology-Task Generalization via Unified Representation
and Behavior Distillation [28.041319351752485]
本研究では,多量の熟練した行動データを蒸留することにより,様々な形態のエージェントを操り,様々なタスクをこなす単一ポリシーを学習する方法について検討する。
本稿では, 観測, 行動, 目標/タスクを統一されたグラフ表現で扱うモルフォロジー・タスクグラフを紹介する。
また,多種多様な形態とタスクの組み合わせの手続き的生成を支援する高速な大規模行動生成のためのMxT-Benchを開発した。
論文 参考訳(メタデータ) (2022-11-25T18:52:48Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。