論文の概要: The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation
- arxiv url: http://arxiv.org/abs/2504.05178v1
- Date: Mon, 07 Apr 2025 15:24:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:58.295111
- Title: The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation
- Title(参考訳): 第4回PVUW MeViSチャレンジ : ビデオセグメント参照のための大規模マルチモーダルモデルの可能性
- Authors: Hao Fang, Runmin Cong, Xiankai Lu, Zhiyang Chen, Wei Zhang,
- Abstract要約: 本稿では,ビデオセグメンテーションにおけるLMMの可能性を完全に解き放つための,シンプルで効果的な推論最適化手法を提案する。
我々のソリューションはMeViSテストセットで61.98%のJ&Fを達成し、CVPR 2025で第4回PVUWチャレンジMeViSトラックで1位となった。
- 参考スコア(独自算出の注目度): 31.44879457190659
- License:
- Abstract: Motion expression video segmentation is designed to segment objects in accordance with the input motion expressions. In contrast to the conventional Referring Video Object Segmentation (RVOS), it places emphasis on motion as well as multi-object expressions, making it more arduous. Recently, Large Multimodal Models (LMMs) have begun to shine in RVOS due to their powerful vision-language perception capabilities. In this work, we propose a simple and effective inference optimization method to fully unleash the potential of LMMs in referring video segmentation. Firstly, we use Sa2VA as our baseline, which is a unified LMM for dense grounded understanding of both images and videos. Secondly, we uniformly sample the video frames during the inference process to enhance the model's understanding of the entire video. Finally, we integrate the results of multiple expert models to mitigate the erroneous predictions of a single model. Our solution achieved 61.98% J&F on the MeViS test set and ranked 1st place in the 4th PVUW Challenge MeViS Track at CVPR 2025.
- Abstract(参考訳): モーション表現ビデオセグメンテーションは、入力されたモーション表現に応じてオブジェクトをセグメンテーションするように設計されている。
従来のReferring Video Object Segmentation (RVOS)とは対照的に、動きだけでなく、多目的表現にも重点を置いているため、より困難である。
近年,LMM(Large Multimodal Models)がRVOSの強力な視覚言語認識能力により輝き始めている。
本研究では,ビデオセグメンテーションにおけるLMMの可能性を完全に解き放つための,シンプルで効果的な推論最適化手法を提案する。
まず,Sa2VAをベースラインとして使用し,画像とビデオの密接な理解のための統一LMMである。
第2に、推論プロセス中に一様にビデオフレームをサンプリングし、ビデオ全体の理解を深める。
最後に、複数の専門家モデルの結果を統合して、1つのモデルの誤った予測を緩和する。
我々のソリューションはMeViSテストセットで61.98%のJ&Fを達成し、CVPR 2025で第4回PVUWチャレンジMeViSトラックで1位となった。
関連論文リスト
- MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models [30.139277087078764]
MotionBenchは、ビデオ理解モデルの詳細な動作理解を評価するために設計された評価ベンチマークである。
さまざまなソースから収集されたデータが含まれており、現実世界のビデオコンテンツの広範な表現が保証されている。
我々のベンチマークは、より有能な映像理解モデルの開発をガイドし、動機づけることを目的としている。
論文 参考訳(メタデータ) (2025-01-06T11:57:38Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - DVOS: Self-Supervised Dense-Pattern Video Object Segmentation [6.092973123903838]
Dense Video Object (DVOS) のシナリオでは、各ビデオフレームは数百もの小さな、密度が高く、部分的に隠されたオブジェクトを含んでいる。
マルチタスク学習による拡散に基づくDVOSの半時間的アプローチを提案する。
提案手法の有用性と有効性を示すために, ハンドヘルドビデオとドローンキャプチャビデオの小麦頭部分割のためのDVOSモデルを開発した。
論文 参考訳(メタデータ) (2024-06-07T17:58:36Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z) - E-ViLM: Efficient Video-Language Model via Masked Video Modeling with
Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。
我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文 参考訳(メタデータ) (2023-11-28T22:57:17Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - An Empirical Study of End-to-End Video-Language Transformers with Masked
Visual Modeling [152.75131627307567]
Masked Visual Modeling (MVM) は視覚前トレーニングに有効であることが最近証明されている。
VidL学習におけるMVMの可能性について,系統的に検討した。
我々は、MVMで事前トレーニングされたVIOLETv2が、13のVidLベンチマークで顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2022-09-04T06:30:32Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。