論文の概要: Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching
- arxiv url: http://arxiv.org/abs/2305.13310v1
- Date: Mon, 22 May 2023 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:30:49.421920
- Title: Matcher: Segment Anything with One Shot Using All-Purpose Feature
Matching
- Title(参考訳): Matcher: All-Purpose特徴マッチングを使った1ショットのセグメンテーション
- Authors: Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen
- Abstract要約: 我々は,全目的特徴抽出モデルとクラス非依存セグメンテーションモデルを統合することで,任意のショットを1ショットで分割するMatcherを提案する。
提案したMatcher法は,様々なセグメンテーションタスクに対して,すべてトレーニングなしで,印象的な一般化性能を実現する。
- 参考スコア(独自算出の注目度): 78.93375740562331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Powered by large-scale pre-training, vision foundation models exhibit
significant potential in open-world image understanding. Even though individual
models have limited capabilities, combining multiple such models properly can
lead to positive synergies and unleash their full potential. In this work, we
present Matcher, which segments anything with one shot by integrating an
all-purpose feature extraction model and a class-agnostic segmentation model.
Naively connecting the models results in unsatisfying performance, e.g., the
models tend to generate matching outliers and false-positive mask fragments. To
address these issues, we design a bidirectional matching strategy for accurate
cross-image semantic dense matching and a robust prompt sampler for mask
proposal generation. In addition, we propose a novel instance-level matching
strategy for controllable mask merging. The proposed Matcher method delivers
impressive generalization performance across various segmentation tasks, all
without training. For example, it achieves 52.7% mIoU on COCO-20$^i$ for
one-shot semantic segmentation, surpassing the state-of-the-art specialist
model by 1.6%. In addition, our visualization results show open-world
generality and flexibility on images in the wild. The code shall be released at
https://github.com/aim-uofa/Matcher.
- Abstract(参考訳): 大規模な事前訓練により、視覚基礎モデルは、オープンワールドのイメージ理解において大きな可能性を秘めている。
個々のモデルには限られた能力があるが、複数のモデルを組み合わせることで正のシナジーが生まれ、その潜在能力を解き放つ。
本稿では,全目的特徴抽出モデルとクラス非依存なセグメンテーションモデルを統合することで,任意のものを1ショットでセグメンテーションするmatcherを提案する。
例えば、モデルが一致した外れ値や偽陽性のマスクフラグメントを生成する傾向があります。
これらの課題に対処するため、正確な画像間セマンティックマッチングのための双方向マッチング戦略とマスク提案生成のための堅牢なプロンプトサンプリングを設計する。
さらに,制御可能なマスクマージのための新しいインスタンスレベルのマッチング戦略を提案する。
提案手法は,様々なセグメンテーションタスクにまたがる印象的な一般化性能を提供する。
例えば、1ショットセマンティックセグメンテーションのCOCO-20$^i$で52.7% mIoUを達成し、最先端のスペシャリストモデルを1.6%上回る。
さらに,可視化結果から,野放しの画像に対するオープンワールドの汎用性と柔軟性が示された。
コードはhttps://github.com/aim-uofa/matcherでリリースする。
関連論文リスト
- Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Towards Unseen Triples: Effective Text-Image-joint Learning for Scene
Graph Generation [30.79358827005448]
SGG(Scene Graph Generation)は、画像内のオブジェクトとその接続を構造的かつ包括的に表現することを目的としている。
既存のSGGモデルは、バイアス付きデータセットによって引き起こされる長い尾の問題を解決するのに苦労することが多い。
テキスト画像結合Scene Graph Generation (TISGG) モデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T10:17:56Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。