論文の概要: Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples
- arxiv url: http://arxiv.org/abs/2309.02041v1
- Date: Tue, 5 Sep 2023 08:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:55:47.692960
- Title: Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples
- Title(参考訳): 限られたサンプルを対象とするビデオオブジェクト分割参照のための相互親和性学習
- Authors: Guanghui Li, Mingqi Gao, Heng Liu, Xiantong Zhen, Feng Zheng
- Abstract要約: ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
- 参考スコア(独自算出の注目度): 61.66967790884943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS), as a supervised learning task,
relies on sufficient annotated data for a given scene. However, in more
realistic scenarios, only minimal annotations are available for a new scene,
which poses significant challenges to existing RVOS methods. With this in mind,
we propose a simple yet effective model with a newly designed cross-modal
affinity (CMA) module based on a Transformer architecture. The CMA module
builds multimodal affinity with a few samples, thus quickly learning new
semantic information, and enabling the model to adapt to different scenarios.
Since the proposed method targets limited samples for new scenes, we generalize
the problem as - few-shot referring video object segmentation (FS-RVOS). To
foster research in this direction, we build up a new FS-RVOS benchmark based on
currently available datasets. The benchmark covers a wide range and includes
multiple situations, which can maximally simulate real-world scenarios.
Extensive experiments show that our model adapts well to different scenarios
with only a few samples, reaching state-of-the-art performance on the
benchmark. On Mini-Ref-YouTube-VOS, our model achieves an average performance
of 53.1 J and 54.8 F, which are 10% better than the baselines. Furthermore, we
show impressive results of 77.7 J and 74.8 F on Mini-Ref-SAIL-VOS, which are
significantly better than the baselines. Code is publicly available at
https://github.com/hengliusky/Few_shot_RVOS.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)を教師付き学習タスクとして参照することは、与えられたシーンに十分な注釈付きデータに依存する。
しかし、より現実的なシナリオでは、新しいシーンでは最小限のアノテーションしか利用できません。
そこで本研究では,Transformer アーキテクチャをベースとした相互親和性 (CMA) モジュールを新たに設計したシンプルなモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
提案手法は,新しいシーンの限られたサンプルを対象としているため,ビデオオブジェクトセグメンテーション (FS-RVOS) を参照して問題を一般化する。
この方向の研究を促進するため、現在利用可能なデータセットに基づいた新しいFS-RVOSベンチマークを構築した。
このベンチマークは幅広い範囲をカバーし、現実世界のシナリオを最大限にシミュレートできる複数の状況を含む。
大規模な実験により、我々のモデルは少数のサンプルで異なるシナリオに順応し、ベンチマークで最先端のパフォーマンスに達することが示された。
Mini-Ref-YouTube-VOS では,ベースラインよりも平均 53.1 J と 54.8 F を達成している。
さらに,Mini-Ref-SAIL-VOSの77.7 Jと74.8 Fは,ベースラインよりも大幅に優れていた。
コードはhttps://github.com/hengliusky/Few_shot_RVOSで公開されている。
関連論文リスト
- 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Scalable Video Object Segmentation with Simplified Framework [21.408446548059956]
本稿では,機能抽出とマッチングを行うスケーラブルなVOS(SimVOS)フレームワークを提案する。
SimVOSは拡張性のあるViTバックボーンを使用して、クエリと参照の同時抽出とマッチングを行う。
実験により,我々のSimVOSは,人気ビデオオブジェクトセグメンテーションベンチマークの最先端結果を得た。
論文 参考訳(メタデータ) (2023-08-19T04:30:48Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Learning What to Learn for Video Object Segmentation [157.4154825304324]
本稿では,多様な数発の学習モジュールを統合した,エンドツーエンドのトレーニング可能なVOSアーキテクチャを提案する。
この内部学習器は、ターゲットの強力なパラメトリックモデルを予測するように設計されている。
私たちは、大規模なYouTube-VOS 2018データセットに、総合スコア81.5を達成して、新たな最先端を設定しました。
論文 参考訳(メタデータ) (2020-03-25T17:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。