論文の概要: Video-QTR: Query-Driven Temporal Reasoning Framework for Lightweight Video Understanding
- arxiv url: http://arxiv.org/abs/2512.09354v1
- Date: Wed, 10 Dec 2025 06:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.414845
- Title: Video-QTR: Query-Driven Temporal Reasoning Framework for Lightweight Video Understanding
- Title(参考訳): Video-QTR:軽量ビデオ理解のためのクエリ駆動テンポラル推論フレームワーク
- Authors: Xinkui Zhao, Zuxin Wang, Yifan Zhang, Guanjie Cheng, Yueshen Xu, Shuiguang Deng, Chang Liu, Naibo Wang, Jianwei Yin,
- Abstract要約: Video-QTRは、クエリ誘導推論プロセスとしてビデオ理解を再定義する軽量フレームワークである。
ビデオQTRは,入力フレームの消費を最大73%削減し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 37.682165829414494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of multimodal large-language models (MLLMs) has significantly expanded the scope of visual language reasoning, enabling unified systems to interpret and describe complex visual content. However, applying these models to long-video understanding remains computationally intensive. Dense frame encoding generates excessive visual tokens, leading to high memory consumption, redundant computation, and limited scalability in real-world applications. This inefficiency highlights a key limitation of the traditional process-then-reason paradigm, which analyzes visual streams exhaustively before semantic reasoning. To address this challenge, we introduce Video-QTR (Query-Driven Temporal Reasoning), a lightweight framework that redefines video comprehension as a query-guided reasoning process. Instead of encoding every frame, Video-QTR dynamically allocates perceptual resources based on the semantic intent of the query, creating an adaptive feedback loop between reasoning and perception. Extensive experiments across five benchmarks: MSVD-QA, Activity Net-QA, Movie Chat, and Video MME demonstrate that Video-QTR achieves state-of-the-art performance while reducing input frame consumption by up to 73%. These results confirm that query-driven temporal reasoning provides an efficient and scalable solution for video understanding.
- Abstract(参考訳): マルチモーダルな多言語モデル(MLLM)の急速な開発により、視覚言語推論の範囲が大幅に拡大し、統一されたシステムが複雑な視覚内容の解釈と記述を可能にした。
しかし、これらのモデルを長時間ビデオ理解に適用することは、依然として計算集約的である。
デンスフレームの符号化は過剰なビジュアルトークンを生成し、メモリ消費、冗長な計算、現実世界のアプリケーションでのスケーラビリティの制限につながる。
この非効率性は、意味論的推論の前に視覚的ストリームを徹底的に分析する伝統的なプロセス・テーマ・レアソンのパラダイムの鍵となる限界を浮き彫りにする。
この課題に対処するために、クエリ誘導推論プロセスとしてビデオ理解を再定義する軽量フレームワークであるVideo-QTR(Query-Driven Temporal Reasoning)を紹介した。
全てのフレームをエンコードする代わりに、Video-QTRはクエリの意味的意図に基づいて知覚資源を動的に割り当て、推論と知覚の間に適応的なフィードバックループを生成する。
MSVD-QA、Activity Net-QA、Movie Chat、Video MMEの5つのベンチマークにおいて、ビデオQTRは、入力フレームの消費を最大73%削減し、最先端のパフォーマンスを達成することを示した。
これらの結果は、クエリ駆動の時間的推論が、ビデオ理解のための効率的でスケーラブルなソリューションを提供することを確認した。
関連論文リスト
- Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding [33.58579390725519]
Video-MTRは、反復的なキーセグメントの選択と質問理解を可能にするために設計された強化されたマルチターン推論フレームワークである。
単一のターンで予測を生成する従来のビデオ推論パイプラインとは異なり、Video-MTRは複数のターンで推論を実行する。
中間推論プロセスを保証するため,新たな二段階報酬システムを導入する。
論文 参考訳(メタデータ) (2025-08-28T06:55:08Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - REVEAL: Relation-based Video Representation Learning for Video-Question-Answering [14.867263291053968]
本稿では,リレーションに基づくrEpresentAtion Learning(REVEAL)を提案する。
バイテンポラルなシーングラフにインスパイアされたビデオシーケンスは、言語埋め込みを通して、時間とともに(サブジェクト・プレディケート・オブジェクト)の形で、関係三重項の集合としてエンコードする。
提案手法を,NeXT-QA,Intent-QA,STAR,VLEP,TVQAの5つのベンチマークで評価した。
論文 参考訳(メタデータ) (2025-04-07T19:54:04Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。