論文の概要: An Empirical Study for Representations of Videos in Video Question Answering via MLLMs
- arxiv url: http://arxiv.org/abs/2510.12299v1
- Date: Tue, 14 Oct 2025 09:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.260936
- Title: An Empirical Study for Representations of Videos in Video Question Answering via MLLMs
- Title(参考訳): MLLMによるビデオ質問応答における映像表現に関する実証的研究
- Authors: Zhi Li, Yanan Wang, Hao Niu, Julio Vizcarra, Masato Taya,
- Abstract要約: マルチモーダルな大言語モデルは近年,ビデオ質問応答において顕著な進歩を遂げている。
ビデオ表現がMLLMに最も有効なのか、また、異なるモダリティがタスクの精度と計算効率のバランスをとるのかは、まだ不明である。
- 参考スコア(独自算出の注目度): 4.726627693005334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal large language models have recently achieved remarkable progress in video question answering (VideoQA) by jointly processing visual, textual, and audio information. However, it remains unclear which video representations are most effective for MLLMs, and how different modalities balance task accuracy against computational efficiency. In this work, we present a comprehensive empirical study of video representation methods for VideoQA with MLLMs. We systematically evaluate single modality inputs question only, subtitles, visual frames, and audio signals as well as multimodal combinations, on two widely used benchmarks: VideoMME and LongVideoBench. Our results show that visual frames substantially enhance accuracy but impose heavy costs in GPU memory and inference latency, while subtitles provide a lightweight yet effective alternative, particularly for long videos. These findings highlight clear trade-offs between effectiveness and efficiency and provide practical insights for designing resource-aware MLLM-based VideoQA systems.
- Abstract(参考訳): ビデオ質問応答(VideoQA)では,視覚情報,テキスト情報,音声情報を共同処理することで,多モーダルな言語モデルが目覚ましい進歩を遂げている。
しかし、どの動画表現がMLLMに最も効果があるのか、またタスクの精度が計算効率とどのように一致しているかは、まだ不明である。
本稿では,MLLMを用いたビデオQAにおける映像表現手法の総合的研究について述べる。
我々は,ビデオMMEとLongVideoBenchの2つの広く使用されているベンチマークにおいて,単一のモーダル入力を問わず,サブタイトル,ヴィジュアルフレーム,音声信号とマルチモーダルの組み合わせを体系的に評価した。
以上の結果から,視覚フレームは精度を大幅に向上するが,GPUメモリや推論遅延に多大なコストを要し,サブタイトルは特に長編ビデオにおいて軽量で効果的な代替手段を提供することがわかった。
これらの知見は、有効性と効率のトレードオフを明確に示し、MLLMベースのビデオQAシステムを設計するための実践的な洞察を提供する。
関連論文リスト
- SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文 参考訳(メタデータ) (2025-05-30T17:59:19Z) - Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Long Video Understanding with Learnable Retrieval in Video-Language Models [48.3525267216256]
本稿では,学習可能な検索ベースビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高いKビデオチャンクを特定し、選択する。
これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。