論文の概要: PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?
- arxiv url: http://arxiv.org/abs/2509.02807v1
- Date: Tue, 02 Sep 2025 20:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.330673
- Title: PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?
- Title(参考訳): PixFoundation 2.0: ビデオマルチモーダルLLMは視覚的グラウンドでモーションを利用するか?
- Authors: Mennatullah Siam,
- Abstract要約: MLLM(Multi-modal large language model)は、画像とテキストのモダリティを用いてタスク間で印象的な一般化を示す。
我々は,動画MLLMが自然言語表現に基づいてオブジェクトをセグメント化できるのか,画素レベルの視覚的グラウンド化にモーションが用いられているのか,という疑問を提起する。
本研究では,映像MLLMが偽物から真の動きを識別する能力と,その動作順序を把握できる能力について,動画MLLMの4つの動き中心探索技術を紹介した。
- 参考スコア(独自算出の注目度): 9.059003409857775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) have shown impressive generalization across tasks using images and text modalities. While their extension to video has enabled tasks such as video question answering and video captioning, their pixel-level visual grounding abilities are less studied. In this work, we raise the pertinent question of whether motion is used in pixel-level visual grounding and whether video MLLMs can segment objects based on natural language expressions describing their motion patterns. We identify the shortcomings in the current benchmarks, where we show that a single frame can often suffice for capturing the motion referring expression without any temporal reasoning. To address this, we introduce four motion-centric probing techniques, particularly designed for the visual grounding task, to study video MLLMs' ability to identify true motion from a fake one and their ability to grasp the motion order. Consequently, we provide a motion-centric benchmark, MoCentric-Bench. It ensures that video MLLMs are evaluated towards leveraging the interaction between motion and language rather than being dominated by static appearance cues emphasized in existing visual grounding datasets. We further establish strong single-image baselines that are on par with or outperform prior methods. Finally, we explore simple motion-centric adaptation techniques that provide state-of-the-art performance on our MoCentric-Bench. Our motion-centric benchmark, evaluation and findings challenge future models to improve dense spatiotemporal grounding and pixel-level understanding within videos. Code and datasets will be made publicly available at https://github.com/MSiam/PixFoundation-2.0.git.
- Abstract(参考訳): MLLM(Multi-modal large language model)は、画像とテキストのモダリティを用いてタスク間で印象的な一般化を示す。
ビデオへの拡張により、ビデオ質問応答やビデオキャプションといったタスクが可能になったが、ピクセルレベルの視覚的グラウンドリング能力はあまり研究されていない。
本研究では,動画MLLMが動作パターンを記述した自然言語表現に基づいてオブジェクトをセグメント化できるかどうか,画素レベルの視覚的グラウンドにモーションが使用されているのか,という関連する疑問を提起する。
現状のベンチマークでは, 時間的推論を伴わずに, 動作参照表現を捉えるのに, 一つのフレームで十分であることを示す。
そこで我々は,4つの動き中心探索技術,特に視覚的接地作業のために設計され,映像MLLMが偽物から真の動きを識別する能力と,その動作順序を把握できる能力について検討する。
その結果,運動中心型ベンチマークMoCentric-Benchが得られた。
ビデオMLLMは、既存のビジュアルグラウンドデータセットで強調される静的な外観の手がかりに支配されるのではなく、動きと言語間の相互作用を活用するために評価される。
さらに、より強力な単一イメージベースラインを確立し、それ以前のメソッドと同等か、あるいは優れています。
最後に,MoCentric-Bench上での最先端性能を実現する,シンプルな動き中心適応手法について検討する。
動作中心のベンチマーク、評価、発見は、ビデオ内の高密度な時空間グラウンドとピクセルレベルの理解を改善するために将来のモデルに挑戦する。
コードとデータセットはhttps://github.com/MSiam/PixFoundation-2.0.gitで公開される。
関連論文リスト
- MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs [32.761738388461595]
我々は、物体中心の視覚スポットライトと動きのぼけを視覚的プロンプトとして生み出す新しいゼロショット手法であるMotionSightを紹介した。
我々は、SFTや嗜好データ、Theta(40K)ビデオクリップ、Theta(87K)QAといった階層的なアノテーションを備えた、ビデオモーション理解のための最初の大規模データセットであるMotionVid-QAをキュレートした。実験の結果、MotionSightは最先端のオープンソースパフォーマンスと商用モデルとの競争性を達成している。
論文 参考訳(メタデータ) (2025-06-02T13:44:56Z) - Towards Understanding Camera Motions in Any Video [89.97247162415158]
我々は、カメラモーション理解の評価と改善を目的とした大規模なデータセットとベンチマークであるCameraBenchを紹介する。
CameraBenchは、厳格な品質管理プロセスを通じて専門家によって注釈付けされた3,000の多様なインターネットビデオで構成されている。
私たちの貢献の1つは、撮影者との共同で設計されたカメラモーションプリミティブの分類である。
論文 参考訳(メタデータ) (2025-04-21T18:34:57Z) - SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである
本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。
我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文 参考訳(メタデータ) (2025-04-01T08:20:55Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - LocoMotion: Learning Motion-Focused Video-Language Representations [45.33444862034461]
局所物体の動きと時間的進行を記述した動きに着目したキャプションからLocoMotionを提案する。
ビデオに合成動作を追加し、これらの動きのパラメータを用いて対応するキャプションを生成することで、これを実現する。
論文 参考訳(メタデータ) (2024-10-15T19:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。