論文の概要: Dense Video Understanding with Gated Residual Tokenization
- arxiv url: http://arxiv.org/abs/2509.14199v2
- Date: Thu, 18 Sep 2025 13:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 13:12:58.960615
- Title: Dense Video Understanding with Gated Residual Tokenization
- Title(参考訳): Gated Residual Tokenization を用いたDense Video Understanding
- Authors: Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu,
- Abstract要約: 高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
- 参考スコア(独自算出の注目度): 49.17263029080152
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: High temporal resolution is essential for capturing fine-grained details in video understanding. However, current video large language models (VLLMs) and benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or keyframe selection, discarding dense temporal information. This compromise avoids the high cost of tokenizing every frame, which otherwise leads to redundant computation and linear token growth as video length increases. While this trade-off works for slowly changing content, it fails for tasks like lecture comprehension, where information appears in nearly every frame and requires precise temporal alignment. To address this gap, we introduce Dense Video Understanding (DVU), which enables high-FPS video comprehension by reducing both tokenization time and token overhead. Existing benchmarks are also limited, as their QA pairs focus on coarse content changes. We therefore propose DIVE (Dense Information Video Evaluation), the first benchmark designed for dense temporal reasoning. To make DVU practical, we present Gated Residual Tokenization (GRT), a two-stage framework: (1) Motion-Compensated Inter-Gated Tokenization uses pixel-level motion estimation to skip static regions during tokenization, achieving sub-linear growth in token count and compute. (2) Semantic-Scene Intra-Tokenization Merging fuses tokens across static regions within a scene, further reducing redundancy while preserving dynamic semantics. Experiments on DIVE show that GRT outperforms larger VLLM baselines and scales positively with FPS. These results highlight the importance of dense temporal information and demonstrate that GRT enables efficient, scalable high-FPS video understanding.
- Abstract(参考訳): 高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
しかしながら、現在のビデオ大言語モデル(VLLM)とベンチマークは、一様サンプリングやキーフレームの選択といった低フレームレートのサンプリングに大きく依存し、高密度の時間情報を破棄している。
この妥協により、すべてのフレームをトークン化するコストが高くなり、ビデオ長が増加するにつれて冗長な計算と線形トークンの増大につながる。
このトレードオフは、コンテンツをゆっくりと変えるのに有効だが、講義の理解のようなタスクには失敗する。
このギャップに対処するために、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にするDense Video Understanding (DVU)を導入する。
既存のベンチマークも制限されており、QAペアは粗い内容の変更に焦点を当てている。
そこで我々はDIVE (Dense Information Video Evaluation) を提案する。
DVUを実用的なものにするために、(1)動き補償型インターゲイト・トークン化(GRT)は、トークン化中に静的領域をスキップするためにピクセルレベルのモーション推定を使い、トークン数と計算においてサブ線形成長を達成する。
2)シーン内の静的領域間でトークンを融合させ,動的なセマンティクスを保ちながら冗長性を低下させる。
DIVEの実験では、GRTはより大きなVLLMベースラインを上回り、FPSと正にスケールすることを示した。
これらの結果は、高精細時間情報の重要性を強調し、GRTが効率的でスケーラブルな高FPSビデオ理解を可能にすることを示す。
関連論文リスト
- ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。
まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。
第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文 参考訳(メタデータ) (2025-09-16T17:12:23Z) - When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding [12.410012029024342]
我々は,3つの重要なイノベーションを導入することで,制限を克服するビデオLLMであるGrounded VideoDiTを紹介する。
第一に、拡散時間遅延(DTL)エンコーダは境界感度を高め、時間的一貫性を維持する。
第二に、オブジェクト基底表現は、クエリエンティティを局所化された視覚的エビデンスに明示的に結合し、アライメントを強化する。
第三に、離散時間的タイムスタンプトークンを持つ混合トークンスキームは明示的なモデリングを提供し、きめ細かい時間的推論を可能にする。
論文 参考訳(メタデータ) (2025-08-21T15:12:14Z) - KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。