論文の概要: RefSAM: Efficiently Adapting Segmenting Anything Model for Referring
Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2307.00997v2
- Date: Mon, 2 Oct 2023 02:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:52:43.330376
- Title: RefSAM: Efficiently Adapting Segmenting Anything Model for Referring
Video Object Segmentation
- Title(参考訳): RefSAM: ビデオオブジェクトのセグメンテーション参照のためのセグメンテーションモデルへの適応
- Authors: Yonglin Li and Jing Zhang and Xiao Teng and Long Lan
- Abstract要約: 本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に整合させ、融合させるために、パラメータ効率のチューニング戦略を用いる。
- 参考スコア(独自算出の注目度): 16.83885487855187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM) has gained significant attention for its
impressive performance in image segmentation. However, it lacks proficiency in
referring video object segmentation (RVOS) due to the need for precise
user-interactive prompts and a limited understanding of different modalities,
such as language and vision. This paper presents the RefSAM model, which
explores the potential of SAM for RVOS by incorporating multi-view information
from diverse modalities and successive frames at different timestamps in an
online manner. Our proposed approach adapts the original SAM model to enhance
cross-modality learning by employing a lightweight Cross-Modal MLP that
projects the text embedding of the referring expression into sparse and dense
embeddings, serving as user-interactive prompts. Additionally, we have
introduced the hierarchical dense attention module to fuse hierarchical visual
semantic information with sparse embeddings in order to obtain fine-grained
dense embeddings, and an implicit tracking module to generate a track token and
provide historical information for the mask decoder. Furthermore, we employ a
parameter-efficient tuning strategy to effectively align and fuse the language
and vision features. Through comprehensive ablation studies, we demonstrate the
practical and effective design choices of our model. Extensive experiments
conducted on Ref-Youtu-VOS, Ref-DAVIS17, and three referring image segmentation
datasets validate the superiority and effectiveness of our RefSAM model over
existing methods. The code and models will be made publicly at
\href{https://github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM}.
- Abstract(参考訳): Segment Anything Model (SAM) は画像セグメンテーションにおける顕著な性能で注目されている。
しかし、正確なユーザ対話的なプロンプトが必要であり、言語や視覚といった様々なモダリティの理解が限られているため、ビデオオブジェクトセグメンテーション(RVOS)を参照する能力に欠ける。
本稿では,様々なモダリティや連続フレームからの多視点情報を異なるタイムスタンプでオンラインに組み込むことにより,RVOS におけるSAM の可能性を探る RefSAM モデルを提案する。
提案手法は,参照表現のテキスト埋め込みを疎密な埋め込みにプロンプトとして投影する軽量なクロスモーダルMLPを用いることで,モダリティ学習を強化するためにオリジナルのSAMモデルに適応する。
さらに,細粒度密埋込みを実現するために,階層的視覚意味情報と疎埋め込みを融合する階層的密集注意モジュールと,トラックトークンを生成し,マスクデコーダに履歴情報を提供する暗黙追跡モジュールを導入した。
さらに,言語と視覚の特徴を効果的に整合させ,融合させるために,パラメータ効率の調整手法を用いる。
包括的アブレーション研究を通じて,本モデルの実用的かつ効果的な設計選択を実証する。
Ref-Youtu-VOS、Ref-DAVIS17、および3つの参照画像セグメンテーションデータセットによる大規模な実験により、既存の手法よりもRefSAMモデルの優位性と有効性を検証した。
コードとモデルは \href{https://github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM} で公開される。
関連論文リスト
- Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Labeling Indoor Scenes with Fusion of Out-of-the-Box Perception Models [4.157013247909771]
ボトムアップセグメンテーション(SAM)、オブジェクト検出(Detic)、セマンティックセグメンテーション(MaskFormer)の最先端モデルを活用することを提案する。
室内環境におけるセマンティックセグメンテーションとオブジェクトインスタンス検出のための擬似ラベルを得るための,コスト効率の高いラベリング手法を開発することを目的とする。
提案手法の有効性を,Active VisionデータセットとADE20Kデータセットに示す。
論文 参考訳(メタデータ) (2023-11-17T21:58:26Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。