論文の概要: D-CoDe: Scaling Image-Pretrained VLMs to Video via Dynamic Compression and Question Decomposition
- arxiv url: http://arxiv.org/abs/2510.08818v1
- Date: Thu, 09 Oct 2025 21:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.79575
- Title: D-CoDe: Scaling Image-Pretrained VLMs to Video via Dynamic Compression and Question Decomposition
- Title(参考訳): D-CoDe:動的圧縮と質問分解による映像対応VLMの映像化
- Authors: Yiyang Huang, Yizhou Wang, Yun Fu,
- Abstract要約: ビデオ大言語モデル(Vid-LLM)は多様なビデオ言語タスクに優れる。
D-CoDeは動的圧縮と質問分解を組み込んだトレーニングフリー適応フレームワークである。
実験により、D-CoDeは様々なベンチマークでビデオの理解を効果的に改善することが示された。
- 参考スコア(独自算出の注目度): 36.19028662042685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video large language models (Vid-LLMs), which excel in diverse video-language tasks, can be effectively constructed by adapting image-pretrained vision-language models (VLMs). However, this adaptation remains challenging, as it requires processing dense and temporally extended visual inputs that exceed the capacity of image-based models. This paper identifies the perception bottleneck and token overload as key challenges in extending image-based VLMs to the video domain. To address these issues, we propose D-CoDe, a training-free adaptation framework that incorporates dynamic compression and question decomposition. Specifically, dynamic compression alleviates the perception bottleneck through adaptive selection of representative frames and content-aware aggregation of spatial tokens, thereby reducing redundancy while preserving informative content. In parallel, question decomposition mitigates token overload by reformulating the original query into sub-questions, guiding the model to focus on distinct aspects of the video and enabling more comprehensive understanding. Experiments demonstrate that D-CoDe effectively improves video understanding across various benchmarks. Furthermore, strong performance on the challenging long-video benchmark highlights the potential of D-CoDe in handling complex video-language tasks. Code is available at https://github.com/hukcc/D-CoDe.
- Abstract(参考訳): 多様なビデオ言語タスクに優れたビデオ大言語モデル(Vid-LLMs)は、VLM(Image-pretrained Vision-Language Model)を適応させることで、効果的に構築できる。
しかし、画像ベースモデルの容量を超える高密度かつ時間的に拡張された視覚入力を処理する必要があるため、この適応は依然として困難である。
本稿では、画像ベースのVLMをビデオ領域に拡張する上で重要な課題として、認識ボトルネックとトークン過負荷を取り上げている。
これらの問題に対処するために,動的圧縮と質問分解を組み込んだトレーニング不要適応フレームワークD-CoDeを提案する。
具体的には、動的圧縮は、代表フレームの適応的な選択と空間トークンのコンテンツ認識集約によって認識ボトルネックを緩和し、情報的コンテンツを保存しながら冗長性を低下させる。
並行して、質問分解は、元のクエリをサブクエストに再構成することでトークン過負荷を軽減し、モデルをビデオの異なる側面に集中させ、より包括的な理解を可能にする。
実験により、D-CoDeは様々なベンチマークでビデオの理解を効果的に改善することが示された。
さらに、挑戦的な長ビデオベンチマークの強力なパフォーマンスは、複雑なビデオ言語タスクを扱う上でのD-CoDeの可能性を強調している。
コードはhttps://github.com/hukcc/D-CoDe.comで入手できる。
関連論文リスト
- LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding [18.312501339046296]
我々は,繰り返しフレームと応答不関連フレームの両方で冗長が生じ,対応するフレームは異なる質問によって異なることを観察する。
このことは、詳細なビデオ情報保存とトークン予算削減のバランスをとるためにダイナミックエンコーディングを採用する可能性を示唆している。
論文 参考訳(メタデータ) (2024-11-19T09:16:54Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。