論文の概要: VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding
- arxiv url: http://arxiv.org/abs/2605.05848v2
- Date: Fri, 08 May 2026 13:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.028204
- Title: VideoRouter: Query-Adaptive Dual Routing for Efficient Long-Video Understanding
- Title(参考訳): VideoRouter: クエリ適応型デュアルルーティングによるビデオ理解の効率化
- Authors: Kuanwei Lin, Wenhao Zhang, Ge Li,
- Abstract要約: ビデオは、過度に長い視覚的トーケンシーケンスを生成し、推論中にメモリと遅延を急激に増加させる。
本稿では,InternVL上に構築されたクエリ適応型デュアルルータフレームワークであるVideoについて述べる。
我々は、ビデオがInternVLベースラインを同等または低い予算で継続的に改善し、67.9%のトークン削減を達成することを示した。
- 参考スコア(独自算出の注目度): 21.436338677020178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video large multimodal models increasingly face a scalability bottleneck: long videos produce excessively long visual-token sequences, which sharply increase memory and latency during inference. While existing compression methods are effective in specific settings, most are either weakly query-aware or apply a fixed compression policy across frames, proving suboptimal when visual evidence is unevenly distributed over time. To address this, we present VideoRouter, a query-adaptive dual-router framework built on InternVL for budgeted evidence allocation. The Semantic Router predicts the dominant allocation policy, choosing between broad temporal coverage and adaptive high-resolution preservation, while the Image Router uses early LLM layers to score frame relevance. This enables aggressive compression on less relevant frames while preserving detail on critical evidence frames. To train both routers, we build Video-QTR-10K for allocation-policy supervision and Video-FLR-200K for frame-relevance supervision. Experiments on VideoMME, MLVU, and LongVideoBench show that VideoRouter consistently improves over the InternVL baseline under comparable or lower budgets, achieving up to a 67.9% token reduction.
- Abstract(参考訳): ビデオの大きなマルチモーダルモデルは、ますますスケーラビリティのボトルネックに直面している。
既存の圧縮方法は特定の設定で有効であるが、ほとんどの場合、弱いクエリに気付くか、フレーム間で固定された圧縮ポリシーを適用し、視覚的エビデンスが時間とともに不均一に分散されている場合の準最適性を証明している。
これを解決するために,InternVL上に構築されたクエリ適応型デュアルルータフレームワークであるVideoRouterを紹介した。
セマンティック・ルータは、広範囲の時間的カバレッジと適応的な高解像度保存を選択することで、支配的なアロケーションポリシーを予測し、イメージ・ルータはフレームの関連性を評価するために初期のLCM層を使用する。
これにより、重要エビデンスフレームの詳細を保存しながら、関連性の低いフレームに対して積極的な圧縮が可能になる。
両ルータをトレーニングするために,アロケーションポリシー監視用Video-QTR-10Kとフレーム関連監視用Video-FLR-200Kを構築した。
VideoMME、MLVU、LongVideoBenchの実験では、VideoRouterはInternVLベースラインを同等または低い予算で継続的に改善し、67.9%のトークン削減を実現している。
関連論文リスト
- Small Vision-Language Models are Smart Compressors for Long Video Understanding [73.65465038390771]
長時間のビデオ理解は、欲求に満ちたコンテキストではなく、意図駆動の効率に頼っている。
本稿では,下流の理解のために長い動画を圧縮する効率的なクエリ認識フレームワークであるTempoを提案する。
テストでは、Tempoが1時間のビデオを理論的限界以下に圧縮し、真のロングフォームビデオ理解が意図駆動の効率に依存することを示した。
論文 参考訳(メタデータ) (2026-04-09T11:40:25Z) - VideoStir: Understanding Long Videos via Spatio-Temporally Structured and Intent-Aware RAG [33.938909878793815]
VideoStirは構造化されマルチモーダルなインテント対応長ビデオRAGフレームワークである。
ビデオは、クリップレベルでテンポラルグラフとして構成され、エビデンスを集約するマルチホップ検索を実行する。
また、MLLMが支援するインテント関連スコアラを導入し、クエリの推論インテントとのアライメントに基づいてフレームを取得する。
論文 参考訳(メタデータ) (2026-04-07T04:26:59Z) - Scaling RL to Long Videos [115.96341152407008]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。
LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文 参考訳(メタデータ) (2025-07-10T17:47:40Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Online Streaming Video Super-Resolution with Convolutional Look-Up Table [26.628925884353674]
本稿では,オンライン・ストリーミング・ビデオ・スーパーレゾリューションの稀な問題設定に焦点を当てる。
LDV-WebRTCと呼ばれる新しいベンチマークデータセットは、現実世界のオンラインストリーミングシステムに基づいて構築されている。
そこで我々は, 異なる劣化に特化したLUTのセットを構築し, 適応的に組み合わせて, 異なる劣化に対処する, 実験用LUTモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-01T08:54:56Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。