論文の概要: MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2506.01674v1
- Date: Mon, 02 Jun 2025 13:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.411458
- Title: MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs
- Title(参考訳): MotionSight:マルチモーダルLLMにおける微粒化動作理解の促進
- Authors: Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai,
- Abstract要約: 我々は、物体中心の視覚スポットライトと動きのぼけを視覚的プロンプトとして生み出す新しいゼロショット手法であるMotionSightを紹介した。
我々は、SFTや嗜好データ、Theta(40K)ビデオクリップ、Theta(87K)QAといった階層的なアノテーションを備えた、ビデオモーション理解のための最初の大規模データセットであるMotionVid-QAをキュレートした。実験の結果、MotionSightは最先端のオープンソースパフォーマンスと商用モデルとの競争性を達成している。
- 参考スコア(独自算出の注目度): 32.761738388461595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advancements in Multimodal Large Language Models (MLLMs), their proficiency in fine-grained video motion understanding remains critically limited. They often lack inter-frame differencing and tend to average or ignore subtle visual cues. Furthermore, while visual prompting has shown potential in static images, its application to video's temporal complexities, particularly for fine-grained motion understanding, remains largely unexplored. We investigate whether inherent capability can be unlocked and boost MLLMs' motion perception and enable distinct visual signatures tailored to decouple object and camera motion cues. In this study, we introduce MotionSight, a novel zero-shot method pioneering object-centric visual spotlight and motion blur as visual prompts to effectively improve fine-grained motion understanding without training. To convert this into valuable data assets, we curated MotionVid-QA, the first large-scale dataset for fine-grained video motion understanding, with hierarchical annotations including SFT and preference data, {\Theta}(40K) video clips and {\Theta}(87K) QAs. Experiments show MotionSight achieves state-of-the-art open-source performance and competitiveness with commercial models. In particular, for fine-grained motion understanding we present a novel zero-shot technique and a large-scale, high-quality dataset. All the code and annotations will be publicly available.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩にもかかわらず、細粒度ビデオモーションの理解能力は依然として極めて限られている。
フレーム間の差異を欠くことが多く、微妙な視覚的手がかりを平均または無視する傾向がある。
さらに、視覚的なプロンプトは静的画像に可能性を示しているが、ビデオの時間的複雑さ、特に微粒な動きの理解への応用は、未解明のままである。
本研究は、MLLMの動作知覚をアンロックし、物体とカメラのモーションキューを分離するのに適した視覚的シグネチャを実現できるかどうかを検討する。
本研究では,物体中心の視覚的スポットライトと動きのぼけを視覚的プロンプトとして生み出す新しいゼロショット手法であるMotionSightを紹介する。
そこで我々は,これを貴重なデータ資産に変換するために,SFTや嗜好データなどの階層的アノテーション,ビデオクリップ,およびQA(theta}(87K)などを含む,ビデオモーション理解のための最初の大規模データセットであるMotionVid-QAをキュレートした。
実験では、MotionSightが最先端のオープンソースパフォーマンスと商用モデルとの競争性を達成している。
特に、微粒な動き理解のために、新しいゼロショット技術と大規模で高品質なデータセットを提案する。
すべてのコードとアノテーションが公開される。
関連論文リスト
- Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models [30.139277087078764]
MotionBenchは、ビデオ理解モデルの詳細な動作理解を評価するために設計された評価ベンチマークである。
さまざまなソースから収集されたデータが含まれており、現実世界のビデオコンテンツの広範な表現が保証されている。
我々のベンチマークは、より有能な映像理解モデルの開発をガイドし、動機づけることを目的としている。
論文 参考訳(メタデータ) (2025-01-06T11:57:38Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。