論文の概要: Video Detective: Seek Critical Clues Recurrently to Answer Question from Long Videos
- arxiv url: http://arxiv.org/abs/2512.17229v1
- Date: Fri, 19 Dec 2025 04:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.248913
- Title: Video Detective: Seek Critical Clues Recurrently to Answer Question from Long Videos
- Title(参考訳): ビデオ検出:長いビデオから質問に対する批判的回答を繰り返す
- Authors: Henghui Du, Chang Zhou, Chunjie Zhang, Xi Chen, Di Hu,
- Abstract要約: MLLMにおけるLong Video Question-Answering (LVQA) の課題
本稿では,これらの重要な手がかりをMLLMが繰り返し探すことのできる,効率的な質問認識メモリ機構を提案する。
提案手法では,コンテキスト長32KのMLLMを用いて,100Kトークン(3600フレーム,1時間ビデオの1fps)を効率よく処理し,メモリ使用時間は2分37GBである。
- 参考スコア(独自算出の注目度): 48.34455169866522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long Video Question-Answering (LVQA) presents a significant challenge for Multi-modal Large Language Models (MLLMs) due to immense context and overloaded information, which could also lead to prohibitive memory consumption. While existing methods attempt to address these issues by reducing visual tokens or extending model's context length, they may miss useful information or take considerable computation. In fact, when answering given questions, only a small amount of crucial information is required. Therefore, we propose an efficient question-aware memory mechanism, enabling MLLMs to recurrently seek these critical clues. Our approach, named VideoDetective, simplifies this task by iteratively processing video sub-segments. For each sub-segment, a question-aware compression strategy is employed by introducing a few special memory tokens to achieve purposefully compression. This allows models to effectively seek critical clues while reducing visual tokens. Then, due to history context could have a significant impact, we recurrently aggregate and store these memory tokens to update history context, which would be reused for subsequent sub-segments. Furthermore, to more effectively measure model's long video understanding ability, we introduce GLVC (Grounding Long Video Clues), a long video question-answering dataset, which features grounding critical and concrete clues scattered throughout entire videos. Experimental results demonstrate our method enables MLLMs with limited context length of 32K to efficiently process 100K tokens (3600 frames, an hour-long video sampled at 1fps), requiring only 2 minutes and 37GB GPU memory usage. Evaluation results across multiple long video benchmarks illustrate our method can more effectively seek critical clues from massive information.
- Abstract(参考訳): LVQA(Long Video Question-Answering)は、膨大なコンテキストと過剰な情報により、マルチモーダル大言語モデル(MLLM)にとって大きな課題となる。
既存の手法では、視覚的なトークンを減らしたり、モデルのコンテキスト長を延ばしたりすることでこれらの問題に対処しようとするが、有用な情報を見逃したり、相当な計算を行おうとする。
実際、与えられた質問に答えるには、わずかな重要な情報しか必要としない。
そこで我々は,これらの重要な手がかりをMLLMが繰り返し探すことのできる,効率的な質問認識メモリ機構を提案する。
我々のアプローチはVideoDetectiveと呼ばれ、ビデオサブセグメントを反復的に処理することで、このタスクを単純化する。
各サブセグメントに対して、目的的に圧縮を達成するためにいくつかの特別なメモリトークンを導入することで、質問対応圧縮戦略を採用する。
これにより、モデルが視覚的トークンを減らしながら、重要な手がかりを効果的に探すことができる。
そして、履歴コンテキストが大きな影響を与える可能性があるため、これらのメモリトークンを定期的に集約して、履歴コンテキストを更新します。
さらに,モデルの長いビデオ理解能力をより効果的に測定するために,ビデオ全体に散在する批判的,具体的手がかりを具体化する,長いビデオ質問回答データセットであるGLVC(Grounding Long Video Clues)を導入する。
実験により,コンテクスト長が32KのMLLMでは,100Kトークン(3600フレーム,1時間ビデオの1fps)を効率よく処理でき,メモリ使用時間は2分37GBであることがわかった。
複数の長ビデオベンチマークによる評価結果から,本手法はより効果的に大量の情報から重要な手がかりを求めることができることを示す。
関連論文リスト
- CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos [59.391265901911005]
本稿では,MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用して,時間-意味的推論による複雑な問題に対処する新しいフレームワークであるCoT-RVSを提案する。
CoT-RVSは、言語クエリ(セマンティック)にマッチする可能性のある特定のフレーム内の可視オブジェクトを分析し、すべてのフレーム(一時)の中で、懸命に観察できる各オブジェクトに対して対応するオブジェクトを選択する。
当社のフレームワークのトレーニングフリー機能は,テスト時にCoTを使用して,よりよいターゲットが出現し始めると関心の対象を更新するオンラインビデオストリーム処理の拡張も可能にしています。
論文 参考訳(メタデータ) (2025-05-24T07:01:31Z) - Visual Context Window Extension: A New Perspective for Long Video Understanding [45.134271969594614]
我々は、コンテキストウィンドウの観点から、長いビデオ理解の課題に取り組む。
視覚的コンテキストウィンドウを拡張し,LMMを長時間の映像理解タスクに適用することを提案する。
ビデオフレーム数の増加に伴い,本手法は連続的に性能を向上する。
論文 参考訳(メタデータ) (2024-09-30T07:25:16Z) - Hallucination Mitigation Prompts Long-term Video Understanding [36.26790392889717]
本稿では,既存のMLLMをベースとした包括的幻覚緩和パイプラインを構築する。
私たちは、CLIPスコアを使用して、フレームサンプリングプロセスを質問でガイドし、質問に関連する重要なフレームを選択する。
回答生成段階では、チェーン・オブ・コンテクストとイン・コンテクスト・ラーニングの手法を用いて、回答の生成を明示的に制御する。
論文 参考訳(メタデータ) (2024-06-17T08:44:03Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - Long Video Understanding with Learnable Retrieval in Video-Language Models [48.3525267216256]
本稿では,学習可能な検索ベースビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高いKビデオチャンクを特定し、選択する。
これにより、ビデオトークンの数を効果的に減らし、ノイズ干渉をなくし、システム性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。