論文の概要: MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions
- arxiv url: http://arxiv.org/abs/2308.08544v1
- Date: Wed, 16 Aug 2023 17:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:18:16.114533
- Title: MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions
- Title(参考訳): MeViS:モーション表現付きビデオセグメンテーションのための大規模ベンチマーク
- Authors: Henghui Ding, Chang Liu, Shuting He, Xudong Jiang, Chen Change Loy
- Abstract要約: 複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
- 参考スコア(独自算出の注目度): 93.35942025232943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper strives for motion expressions guided video segmentation, which
focuses on segmenting objects in video content based on a sentence describing
the motion of the objects. Existing referring video object datasets typically
focus on salient objects and use language expressions that contain excessive
static attributes that could potentially enable the target object to be
identified in a single frame. These datasets downplay the importance of motion
in video content for language-guided video object segmentation. To investigate
the feasibility of using motion expressions to ground and segment objects in
videos, we propose a large-scale dataset called MeViS, which contains numerous
motion expressions to indicate target objects in complex environments. We
benchmarked 5 existing referring video object segmentation (RVOS) methods and
conducted a comprehensive comparison on the MeViS dataset. The results show
that current RVOS methods cannot effectively address motion expression-guided
video segmentation. We further analyze the challenges and propose a baseline
approach for the proposed MeViS dataset. The goal of our benchmark is to
provide a platform that enables the development of effective language-guided
video segmentation algorithms that leverage motion expressions as a primary cue
for object segmentation in complex video scenes. The proposed MeViS dataset has
been released at https://henghuiding.github.io/MeViS.
- Abstract(参考訳): 本稿では,物体の動作を記述する文に基づく映像コンテンツ中の物体のセグメンテーションに焦点をあてた映像セグメンテーションについて述べる。
既存の参照ビデオオブジェクトデータセットは、通常、サルエントオブジェクトに注目し、ターゲットオブジェクトを単一のフレームで識別する可能性のある過剰な静的属性を含む言語表現を使用する。
これらのデータセットは、言語誘導ビデオオブジェクトセグメンテーションにおける動画コンテンツにおける動きの重要性を軽視する。
映像中の物体のグラウンドやセグメンテーションに動作表現を用いることの可能性を検討するため,複雑な環境下で対象物を示すために多数の動作表現を含む大規模データセットMeViSを提案する。
既存の5つの参照ビデオオブジェクトセグメンテーション(RVOS)手法をベンチマークし,MeViSデータセットの総合的な比較を行った。
その結果,現在のRVOS方式では,動画セグメント化を効果的に処理できないことがわかった。
さらに課題を分析し,提案するMeViSデータセットのベースラインアプローチを提案する。
本ベンチマークの目的は,複雑な映像シーンにおけるオブジェクトセグメンテーションの一次キューとして動作表現を利用する,効果的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
提案されたMeViSデータセットはhttps://henghuiding.github.io/MeViSでリリースされた。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Submodular video object proposal selection for semantic object segmentation [1.223779595809275]
連続的なフレームから複数のインスタンスのサブセットをキャプチャするデータ駆動表現を学習する。
この選択過程は、部分モジュラ函数を最大化することによって解決される施設位置問題として定式化される。
本手法は,ロバストなセマンティックなビデオオブジェクトセグメンテーションアルゴリズムの基盤となる,長期的コンテキスト依存を検索する。
論文 参考訳(メタデータ) (2024-07-08T13:18:49Z) - 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。
本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。
CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文 参考訳(メタデータ) (2024-06-20T02:16:23Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。