論文の概要: Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching
- arxiv url: http://arxiv.org/abs/2305.13310v2
- Date: Fri, 19 Jan 2024 13:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:14:35.519962
- Title: Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching
- Title(参考訳): Matcher: All-Purpose特徴マッチングを使った1ショットのセグメンテーション
- Authors: Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen
- Abstract要約: 市販の視覚基礎モデルを用いて様々な知覚課題に対処する新しい知覚パラダイムであるMatcherを提案する。
Matcherは、様々なセグメンテーションタスクにまたがる印象的な一般化パフォーマンスを、すべてトレーニングなしでデモする。
我々の結果は、野生の画像に適用されたMatcherのオープンワールドの一般性と柔軟性をさらに示すものである。
- 参考スコア(独自算出の注目度): 63.88319217738223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Powered by large-scale pre-training, vision foundation models exhibit
significant potential in open-world image understanding. However, unlike large
language models that excel at directly tackling various language tasks, vision
foundation models require a task-specific model structure followed by
fine-tuning on specific tasks. In this work, we present Matcher, a novel
perception paradigm that utilizes off-the-shelf vision foundation models to
address various perception tasks. Matcher can segment anything by using an
in-context example without training. Additionally, we design three effective
components within the Matcher framework to collaborate with these foundation
models and unleash their full potential in diverse perception tasks. Matcher
demonstrates impressive generalization performance across various segmentation
tasks, all without training. For example, it achieves 52.7% mIoU on COCO-20$^i$
with one example, surpassing the state-of-the-art specialist model by 1.6%. In
addition, Matcher achieves 33.0% mIoU on the proposed LVIS-92$^i$ for one-shot
semantic segmentation, outperforming the state-of-the-art generalist model by
14.4%. Our visualization results further showcase the open-world generality and
flexibility of Matcher when applied to images in the wild. Our code can be
found at https://github.com/aim-uofa/Matcher.
- Abstract(参考訳): 大規模な事前訓練により、視覚基礎モデルは、オープンワールドのイメージ理解において大きな可能性を秘めている。
しかし、様々な言語タスクを直接扱うのに優れている大きな言語モデルとは異なり、vision foundationモデルはタスク固有のモデル構造と、特定のタスクの微調整を必要とする。
本稿では,市販の視覚基盤モデルを用いて様々な知覚課題に対処した新しい知覚パラダイムであるmatcherを提案する。
Matcherは、トレーニングなしでコンテキスト内の例を使って、何でもセグメンテーションできる。
さらに、Matcherフレームワーク内の3つの効果的なコンポーネントを設計し、これらの基盤モデルと連携し、多様な知覚タスクにおいてその潜在能力を解き放つ。
Matcherは、様々なセグメンテーションタスクにまたがる素晴らしい一般化パフォーマンスを、すべてトレーニングなしでデモする。
例えば、COCO-20$^i$の52.7% mIoUを1つの例で達成し、最先端の専門家モデルを1.6%上回る。
さらに、Matcherは1ショットセマンティックセグメンテーションのためのLVIS-92$^i$を33.0% mIoUで達成し、最先端のジェネラリストモデルを14.4%上回った。
我々の視覚化結果は、野生の画像に適用されたMatcherのオープンワールドの汎用性と柔軟性をさらに示す。
私たちのコードはhttps://github.com/aim-uofa/Matcher.orgにある。
関連論文リスト
- Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。