論文の概要: MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions
- arxiv url: http://arxiv.org/abs/2308.08544v1
- Date: Wed, 16 Aug 2023 17:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:18:16.114533
- Title: MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions
- Title(参考訳): MeViS:モーション表現付きビデオセグメンテーションのための大規模ベンチマーク
- Authors: Henghui Ding, Chang Liu, Shuting He, Xudong Jiang, Chen Change Loy
- Abstract要約: 複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
- 参考スコア(独自算出の注目度): 93.35942025232943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper strives for motion expressions guided video segmentation, which
focuses on segmenting objects in video content based on a sentence describing
the motion of the objects. Existing referring video object datasets typically
focus on salient objects and use language expressions that contain excessive
static attributes that could potentially enable the target object to be
identified in a single frame. These datasets downplay the importance of motion
in video content for language-guided video object segmentation. To investigate
the feasibility of using motion expressions to ground and segment objects in
videos, we propose a large-scale dataset called MeViS, which contains numerous
motion expressions to indicate target objects in complex environments. We
benchmarked 5 existing referring video object segmentation (RVOS) methods and
conducted a comprehensive comparison on the MeViS dataset. The results show
that current RVOS methods cannot effectively address motion expression-guided
video segmentation. We further analyze the challenges and propose a baseline
approach for the proposed MeViS dataset. The goal of our benchmark is to
provide a platform that enables the development of effective language-guided
video segmentation algorithms that leverage motion expressions as a primary cue
for object segmentation in complex video scenes. The proposed MeViS dataset has
been released at https://henghuiding.github.io/MeViS.
- Abstract(参考訳): 本稿では,物体の動作を記述する文に基づく映像コンテンツ中の物体のセグメンテーションに焦点をあてた映像セグメンテーションについて述べる。
既存の参照ビデオオブジェクトデータセットは、通常、サルエントオブジェクトに注目し、ターゲットオブジェクトを単一のフレームで識別する可能性のある過剰な静的属性を含む言語表現を使用する。
これらのデータセットは、言語誘導ビデオオブジェクトセグメンテーションにおける動画コンテンツにおける動きの重要性を軽視する。
映像中の物体のグラウンドやセグメンテーションに動作表現を用いることの可能性を検討するため,複雑な環境下で対象物を示すために多数の動作表現を含む大規模データセットMeViSを提案する。
既存の5つの参照ビデオオブジェクトセグメンテーション(RVOS)手法をベンチマークし,MeViSデータセットの総合的な比較を行った。
その結果,現在のRVOS方式では,動画セグメント化を効果的に処理できないことがわかった。
さらに課題を分析し,提案するMeViSデータセットのベースラインアプローチを提案する。
本ベンチマークの目的は,複雑な映像シーンにおけるオブジェクトセグメンテーションの一次キューとして動作表現を利用する,効果的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
提案されたMeViSデータセットはhttps://henghuiding.github.io/MeViSでリリースされた。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Sketch-based Video Object Segmentation: Benchmark and Analysis [55.79497833614397]
本稿では,スケッチベースのビデオオブジェクトセグメンテーション,関連するベンチマーク,強力なベースラインについて紹介する。
私たちのベンチマークには、3つのデータセット、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOSが含まれています。
実験の結果、スケッチは、フォトマスク、言語、スクリブルなど、他の参照よりも効果的であるが、アノテーション効率が高いことが示された。
論文 参考訳(メタデータ) (2023-11-13T11:53:49Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - Video Object of Interest Segmentation [27.225312139360963]
我々はVOIS (Video Object of interest segmentation) という新しいコンピュータビジョンタスクを提案する。
ビデオと対象画像が与えられた場合、対象画像に関連するすべてのオブジェクトを同時にセグメンテーションし、追跡することが目的である。
既存のデータセットはこの新しいタスクに完全に適合しないので、特にLiveVideosと呼ばれる大規模なデータセットを構築します。
論文 参考訳(メタデータ) (2022-12-06T10:21:10Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Self-supervised Sparse to Dense Motion Segmentation [13.888344214818737]
単一ビデオフレームからスパース動作セグメントの密度化を学習するための自己教師付き手法を提案する。
FBMS59 と DAVIS16 でよく知られた動作セグメンテーションデータセットについて検討した。
論文 参考訳(メタデータ) (2020-08-18T11:40:18Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。