論文の概要: AdaCodec: A Predictive Visual Code for Video MLLMs
- arxiv url: http://arxiv.org/abs/2606.02569v1
- Date: Mon, 01 Jun 2026 17:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.563821
- Title: AdaCodec: A Predictive Visual Code for Video MLLMs
- Title(参考訳): AdaCodec:ビデオMLLM用の予測ビジュアルコード
- Authors: Haowen Hou, Zhen Huang, Zheming Liang, Qingyi Si, Chenglin Li, Shuai Dong, Kele Shao, Ruilin Li, Dianyi Wang, Nan Duan, Jiaqi Wang,
- Abstract要約: 我々は,このインターフェースを音声予測ビジュアルコードと呼び,ビデオMLLMを textbfAdaCodec としてインスタンス化する。
AdaCodecは、条件付き予測コストが高い場合にのみ、参照フレームに完全なビジュアルトークンを使用する。
これは、動きや予測残差を含むフレーム間の変化をコンパクトなPトークンとしてエンコードする。
- 参考スコア(独自算出の注目度): 66.30108093864139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video is temporally redundant: adjacent frames usually share most objects, background, and layout. Yet existing video multimodal large language models (video MLLMs) usually encode each sampled frame as an independent RGB image, causing visual tokens to repeat content already present in earlier frames. This suggests a more direct video interface: send a full reference frame only when the scene cannot be predicted well from prior context, and otherwise transmit a compact description of inter-frame changes. We call this interface a \emph{predictive visual code}, and instantiate it for video MLLMs as \textbf{AdaCodec}. AdaCodec spends full visual tokens on a reference frame only when its conditional predictive cost is high; otherwise, it encodes inter-frame changes, including motion and prediction residuals, as compact P-tokens. Across all eleven benchmarks, AdaCodec improves over the Qwen3-VL-8B per-frame RGB baseline at a matched visual-token budget. Even at $1/7$ the budget, AdaCodec with 32k tokens surpasses the 224k baseline on all long-video benchmarks; on five general-video benchmarks, it raises the average score while substantially cutting time-to-first-token from 9.26s to 1.62s.
- Abstract(参考訳): 隣のフレームは通常、ほとんどのオブジェクト、バックグラウンド、レイアウトを共有します。
しかし、既存のビデオマルチモーダル大言語モデル(ビデオMLLM)は、通常、サンプルフレームを独立したRGBイメージとしてエンコードする。
これは、より直接的なビデオインターフェースを示唆している: シーンが以前のコンテキストから適切に予測できない場合にのみ、完全な参照フレームを送信し、フレーム間の変更のコンパクトな記述を送信する。
このインターフェースを \emph{predictive visual code} と呼び、ビデオMLLM に対して \textbf{AdaCodec} としてインスタンス化する。
AdaCodecは条件付き予測コストが高い場合にのみ参照フレームに完全なビジュアルトークンを使用し、そうでなければ、動きや予測残差を含むフレーム間の変更をコンパクトなPトークンとしてエンコードする。
11のベンチマークで、AdaCodecはQwen3-VL-8Bフレーム当たりのRGBベースラインを、一致した視覚的な予算で改善した。
予算が1/7ドルであったとしても、32kトークンを持つAdaCodecは、すべての長ビデオベンチマークで224kベースラインを上回っている。
関連論文リスト
- CoPE-VideoLM: Codec Primitives For Efficient Video Language Models [56.76440182038839]
ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。
現在の方法では、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるサンプリングを使用する。
多くのフレームに対して高価なフルイメージエンコーディングを必要とせず、ビデオ冗長性と疎結合性を符号化するビデオプリミティブを活用することを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:57:31Z) - Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models [24.875526594002434]
長いビデオ理解シナリオのための視覚トークン選択モジュールであるQTSplusを提案する。
Qwen2.5-VLに統合され、ビジョンストリームを textbf89% まで圧縮し、長いビデオでは textbf28% でエンドツーエンドのレイテンシを低減する。
以上の結果から,QTSplusはMLLMを現実世界の長ビデオシナリオに拡張するための,効果的で汎用的なメカニズムであることが示唆された。
論文 参考訳(メタデータ) (2025-11-14T22:41:27Z) - Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。
CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文 参考訳(メタデータ) (2024-11-22T06:50:44Z) - xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs [109.32471628475263]
ビデオ用マルチモーダル言語モデルであるxGen-MM-Vid(B-3-Video)を提案する。
BLIP-3-Videoは、従来のビジュアルトークン化器に加えて「時間エンコーダ」を利用する。
BLIP-3-Videoは、より大規模な最先端モデルに匹敵するビデオ質問応答精度が得られることを実験的に確認する。
論文 参考訳(メタデータ) (2024-10-21T17:59:11Z) - LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models [66.40252169137447]
本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。
LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。
このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-11-28T18:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。