論文の概要: MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation
- arxiv url: http://arxiv.org/abs/2512.10945v1
- Date: Thu, 11 Dec 2025 18:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.570161
- Title: MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation
- Title(参考訳): MeViS:モーション表現ビデオセグメンテーションの参照のためのマルチモーダルデータセット
- Authors: Henghui Ding, Chang Liu, Shuting He, Kaining Ying, Xudong Jiang, Chen Change Loy, Yu-Gang Jiang,
- Abstract要約: テキストと音声の両方に33,072人の注釈付き動作表現を含むデータセットであるMeViSを紹介する。
MeViSがサポートする4つのタスクにまたがる15の既存メソッドをベンチマークする。
本稿では,RVOS/AVOS/RMOTに対するLMPM++のアプローチを提案する。
- 参考スコア(独自算出の注目度): 126.77662882743168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a large-scale multi-modal dataset for referring motion expression video segmentation, focusing on segmenting and tracking target objects in videos based on language description of objects' motions. Existing referring video segmentation datasets often focus on salient objects and use language expressions rich in static attributes, potentially allowing the target object to be identified in a single frame. Such datasets underemphasize the role of motion in both videos and languages. To explore the feasibility of using motion expressions and motion reasoning clues for pixel-level video understanding, we introduce MeViS, a dataset containing 33,072 human-annotated motion expressions in both text and audio, covering 8,171 objects in 2,006 videos of complex scenarios. We benchmark 15 existing methods across 4 tasks supported by MeViS, including 6 referring video object segmentation (RVOS) methods, 3 audio-guided video object segmentation (AVOS) methods, 2 referring multi-object tracking (RMOT) methods, and 4 video captioning methods for the newly introduced referring motion expression generation (RMEG) task. The results demonstrate weaknesses and limitations of existing methods in addressing motion expression-guided video understanding. We further analyze the challenges and propose an approach LMPM++ for RVOS/AVOS/RMOT that achieves new state-of-the-art results. Our dataset provides a platform that facilitates the development of motion expression-guided video understanding algorithms in complex video scenes. The proposed MeViS dataset and the method's source code are publicly available at https://henghuiding.com/MeViS/
- Abstract(参考訳): 本稿では,物体の動きの言語記述に基づく映像中の対象物体のセグメンテーションと追跡に着目し,動き表現ビデオセグメンテーションを参照するための大規模マルチモーダルデータセットを提案する。
既存のビデオセグメンテーションデータセットは、しばしば正常なオブジェクトにフォーカスし、静的属性に富んだ言語表現を使用する。
このようなデータセットは、ビデオと言語の両方における動きの役割を強調している。
画素レベルの映像理解のための動き表現と動き推論の手がかりを使用することの可能性を探るため,複雑なシナリオの8,171件のオブジェクトを対象とし,33,072件の人称動作表現を含むデータセットMeViSを紹介した。
提案手法は,映像オブジェクトセグメンテーション(RVOS)法6例,オーディオ誘導映像オブジェクトセグメンテーション(AVOS)法3例,マルチオブジェクトトラッキング(RMOT)法2例,新たに導入された参照動作表現生成(RMEG)タスクの動画キャプション方法4例を含む,MeViSがサポートする4つのタスクを対象とした15の既存手法をベンチマークする。
その結果,動作表現誘導映像理解における既存の手法の弱点と限界が示された。
さらに課題を分析し,RVOS/AVOS/RMOTに対するLMPM++のアプローチを提案する。
我々のデータセットは、複雑な映像シーンにおける動き表現誘導映像理解アルゴリズムの開発を容易にするプラットフォームを提供する。
提案されたMeViSデータセットとメソッドのソースコードはhttps://henghuiding.com/MeViS/で公開されている。
関連論文リスト
- PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding? [9.059003409857775]
MLLM(Multi-modal large language model)は、画像とテキストのモダリティを用いてタスク間で印象的な一般化を示す。
我々は,動画MLLMが自然言語表現に基づいてオブジェクトをセグメント化できるのか,画素レベルの視覚的グラウンド化にモーションが用いられているのか,という疑問を提起する。
本研究では,映像MLLMが偽物から真の動きを識別する能力と,その動作順序を把握できる能力について,動画MLLMの4つの動き中心探索技術を紹介した。
論文 参考訳(メタデータ) (2025-09-02T20:21:11Z) - VoCap: Video Object Captioning and Segmentation from Any Prompt [78.90048335805047]
VoCapは、ビデオセグメンテーションと様々なモダリティの迅速な理解を消費するフレキシブルモデルである。
プロンプト可能なビデオオブジェクトのセグメンテーション、参照、オブジェクトキャプションに対処する。
本モデルでは,表現対象のセグメンテーションについて,最新の結果が得られる。
論文 参考訳(メタデータ) (2025-08-29T17:43:58Z) - MOVE: Motion-Guided Few-Shot Video Object Segmentation [25.624419551994354]
本研究はFSVOS(Motion-guided few-shot Video Object segmentation)に対処する。
同じモーションパターンの注釈付きサンプルに基づいて、ダイナミックオブジェクトをビデオにセグメントすることを目的としている。
動作誘導型FSVOS用に設計された大規模データセットMOVEを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:59:35Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。
本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。
CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文 参考訳(メタデータ) (2024-06-20T02:16:23Z) - 3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation [13.622700558266658]
本稿では,凍結事前学習型視覚言語モデル(VLM)をバックボーンとして用いることを提案する。
まず、フリーズした畳み込みCLIPバックボーンを使用して、機能に整合したビジョンとテキスト機能を生成し、ドメインギャップの問題を軽減する。
第二に、マルチモーダル情報の利用を高めるために、パイプラインによりクロスモーダルな特徴融合を追加します。
論文 参考訳(メタデータ) (2024-06-07T11:15:03Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。