論文の概要: VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.18823v1
- Date: Mon, 24 Nov 2025 06:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.061935
- Title: VideoPerceiver: Enhancing Fine-Grained Temporal Perception in Video Multimodal Large Language Models
- Title(参考訳): VideoPerceiver:ビデオマルチモーダル大言語モデルにおける微粒時間知覚の促進
- Authors: Fufangchen Zhao, Liao Zhang, Daiqi Shi, Yuanjun Gao, Chen Ye, Yang Cai, Jian Gao, Danfeng Yan,
- Abstract要約: VideoPerceiverはビデオ理解における微細な認識を高めるビデオマルチモーダル大言語モデル(VMLLM)である。
そこで我々は,キャプションからイベントアクションキーワードを抽出し,対応するキーフレームを識別し,隣接するフレームに置き換えることで,キー情報伝達ビデオを構築する。
VideoPerceiverは、詳細なアクション理解とまれなイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
- 参考スコア(独自算出の注目度): 9.896951371033229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose VideoPerceiver, a novel video multimodal large language model (VMLLM) that enhances fine-grained perception in video understanding, addressing VMLLMs' limited ability to reason about brief actions in short clips or rare transient events in long videos. VideoPerceiver adopts a two-stage training framework. During supervised fine-tuning (SFT), we construct "key-information-missing" videos by extracting event-action keywords from captions, identifying corresponding key frames, and replacing them with adjacent frames. We jointly encode original and modified video tokens with text tokens, aligning intermediate visual representations with keywords via an auxiliary contrastive loss to enhance sensitivity to fine-grained motion cues. In reinforcement learning (RL), both video variants are fed into the model to generate descriptions, and a novel relative reward ensures responses from complete videos outperform those from degraded inputs, explicitly training the model to recover temporally precise action details. We also curate a dataset of 80,000 videos with fine-grained actions and transient events. Experiments show VideoPerceiver substantially outperforms state-of-the-art VMLLMs on fine-grained action understanding and rare event captioning benchmarks, while maintaining strong performance on standard tasks. By prioritizing task-relevant visual features, our work redefines video-language model training for fine-grained perception.
- Abstract(参考訳): ビデオ理解における微妙な認識を高める新しいビデオマルチモーダル大言語モデル(VMLLM)であるVideoPerceiverを提案する。
VideoPerceiverは2段階のトレーニングフレームワークを採用している。
教師付き微調整(SFT)中に、キャプションからイベントアクションキーワードを抽出し、対応するキーフレームを特定し、隣接するフレームに置き換えることで、キー情報伝達(key-information-missing)ビデオを構築する。
テキストトークンを用いてオリジナルおよび修正されたビデオトークンを共同でエンコードし、中間的な視覚表現を補助的なコントラッシブ・ロスによってキーワードと整列させ、微粒なモーションキューに対する感度を高める。
強化学習(RL)では、両方のビデオ変種がモデルに入力され、記述が生成され、新しい相対報酬により、劣化した入力からより優れた完全なビデオからの応答が保証され、時間的に正確な動作詳細を復元するようにモデルを明示的に訓練する。
また、きめ細かいアクションと過渡的なイベントを含む8万本のビデオのデータセットをキュレートします。
実験によると、VideoPerceiverは、標準的なタスクで強いパフォーマンスを維持しながら、きめ細かいアクション理解と稀なイベントキャプションベンチマークにおいて、最先端のVMLLMを大幅に上回っている。
タスク関連視覚特徴の優先順位付けにより、細粒度知覚のためのビデオ言語モデルトレーニングを再定義する。
関連論文リスト
- Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。