論文の概要: Efficient Motion-Aware Video MLLM
- arxiv url: http://arxiv.org/abs/2503.13016v1
- Date: Mon, 17 Mar 2025 10:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:26.224154
- Title: Efficient Motion-Aware Video MLLM
- Title(参考訳): 効率的な動き認識ビデオMLLM
- Authors: Zijia Zhao, Yuqi Huo, Tongtian Yue, Longteng Guo, Haoyu Lu, Bingning Wang, Weipeng Chen, Jing Liu,
- Abstract要約: 本稿では,圧縮されたビデオ構造を入力として利用する,効率的な動き認識ビデオMLLMであるEMAを紹介する。
本稿では,圧縮ビデオストリーム中のGOPユニット内の空間情報と動き情報を融合し,コンパクトで情報的な視覚トークンを生成する動き認識型GOPエンコーダを提案する。
また,4つの動作タイプにわたる動作理解を評価するベンチマークであるMotionBenchを紹介する。
- 参考スコア(独自算出の注目度): 17.383054449879985
- License:
- Abstract: Most current video MLLMs rely on uniform frame sampling and image-level encoders, resulting in inefficient data processing and limited motion awareness. To address these challenges, we introduce EMA, an Efficient Motion-Aware video MLLM that utilizes compressed video structures as inputs. We propose a motion-aware GOP (Group of Pictures) encoder that fuses spatial and motion information within a GOP unit in the compressed video stream, generating compact, informative visual tokens. By integrating fewer but denser RGB frames with more but sparser motion vectors in this native slow-fast input architecture, our approach reduces redundancy and enhances motion representation. Additionally, we introduce MotionBench, a benchmark for evaluating motion understanding across four motion types: linear, curved, rotational, and contact-based. Experimental results show that EMA achieves state-of-the-art performance on both MotionBench and popular video question answering benchmarks, while reducing inference costs. Moreover, EMA demonstrates strong scalability, as evidenced by its competitive performance on long video understanding benchmarks.
- Abstract(参考訳): 現在のビデオMLLMの多くは一様フレームサンプリングと画像レベルのエンコーダに依存しており、非効率なデータ処理と限られた動き認識をもたらす。
これらの課題に対処するために、圧縮されたビデオ構造を入力として利用する効率的な動き認識ビデオMLLMであるEMAを紹介する。
本稿では,圧縮ビデオストリーム中のGOPユニット内の空間情報と動き情報を融合し,コンパクトで情報に富んだ視覚トークンを生成する動き認識型GOPエンコーダを提案する。
この低速入力アーキテクチャにおいて、より少ないがより密度の高いRGBフレームとスペーサー運動ベクトルを統合することにより、本手法は冗長性を低減し、動き表現を向上させる。
さらに、線形、曲線、回転、接触の4種類の動きの理解を評価するベンチマークであるMotionBenchを紹介する。
実験結果から,EMAは推論コストを低減しつつ,MotionBenchと人気ビデオ質問応答ベンチマークの両方で最先端のパフォーマンスを実現していることがわかった。
さらに、EMAは、長いビデオ理解ベンチマークで競合するパフォーマンスで証明されているように、強力なスケーラビリティを示している。
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models [30.139277087078764]
MotionBenchは、ビデオ理解モデルの詳細な動作理解を評価するために設計された評価ベンチマークである。
さまざまなソースから収集されたデータが含まれており、現実世界のビデオコンテンツの広範な表現が保証されている。
我々のベンチマークは、より有能な映像理解モデルの開発をガイドし、動機づけることを目的としている。
論文 参考訳(メタデータ) (2025-01-06T11:57:38Z) - MotionBank: A Large-scale Video Motion Benchmark with Disentangled Rule-based Annotations [85.85596165472663]
我々は、13の動画アクションデータセット、1.24Mのモーションシーケンス、132.9Mの自然な、多様な人間のモーションフレームからなるMotionBankを構築した。
私たちのMotionBankは、人間のモーション生成、モーションインコンテキスト生成、そしてモーション理解といった、一般的なモーション関連タスクに役立ちます。
論文 参考訳(メタデータ) (2024-10-17T17:31:24Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Fine-Grained Spatiotemporal Motion Alignment for Contrastive Video Representation Learning [16.094271750354835]
モーション情報は、堅牢で一般化されたビデオ表現に不可欠である。
近年の研究では、ビデオコントラスト学習における動き情報の源として、フレーム差が採用されている。
本稿では,適切な動き情報を導入可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-01T07:03:27Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Representation Learning for Compressed Video Action Recognition via
Attentive Cross-modal Interaction with Motion Enhancement [28.570085937225976]
本稿では,動作強化を伴う注意的クロスモーダルインタラクションネットワークという,新たなフレームワークを提案する。
RGBモダリティ(英語版)とモーションモダリティ(英語版)の2ストリームアーキテクチャ(英語版)に従う。
UCF-101、HMDB-51、Kinetics-400ベンチマークの実験では、MEACI-Netの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-05-07T06:26:49Z) - MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2020-07-20T08:30:14Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。