論文の概要: InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression
- arxiv url: http://arxiv.org/abs/2512.16975v1
- Date: Thu, 18 Dec 2025 17:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.136765
- Title: InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression
- Title(参考訳): InfoTok:情報理論圧縮による適応型離散ビデオトケナイザ
- Authors: Haotian Ye, Qiyuan He, Jiaqi Han, Puheng Li, Jiaojiao Fan, Zekun Hao, Fitsum Reda, Yogesh Balaji, Huayu Chen, Sheng Liu, Angela Yao, James Zou, Stefano Ermon, Haoxiang Wang, Ming-Yu Liu,
- Abstract要約: 現在のトークンライザは、すべてのコンテンツを固定レートで厳格に圧縮し、冗長性や情報損失につながる。
本稿では,適応型ビデオトークン化のための原則的フレームワークであるInfoTokを紹介する。
我々は,適応トークン化を実現するトランスベースの適応圧縮機を開発した。
- 参考スコア(独自算出の注目度): 114.03378443007074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate and efficient discrete video tokenization is essential for long video sequences processing. Yet, the inherent complexity and variable information density of videos present a significant bottleneck for current tokenizers, which rigidly compress all content at a fixed rate, leading to redundancy or information loss. Drawing inspiration from Shannon's information theory, this paper introduces InfoTok, a principled framework for adaptive video tokenization. We rigorously prove that existing data-agnostic training methods are suboptimal in representation length, and present a novel evidence lower bound (ELBO)-based algorithm that approaches theoretical optimality. Leveraging this framework, we develop a transformer-based adaptive compressor that enables adaptive tokenization. Empirical results demonstrate state-of-the-art compression performance, saving 20% tokens without influence on performance, and achieving 2.3x compression rates while still outperforming prior heuristic adaptive approaches. By allocating tokens according to informational richness, InfoTok enables a more compressed yet accurate tokenization for video representation, offering valuable insights for future research.
- Abstract(参考訳): 長いビデオシーケンス処理には、正確かつ効率的な離散ビデオトークン化が不可欠である。
しかし、ビデオ固有の複雑さと可変情報密度は、すべてのコンテンツを固定レートで厳格に圧縮し、冗長性や情報損失をもたらす、現在のトークン化業者にとって重大なボトルネックとなる。
本稿では、Shannonの情報理論からインスピレーションを得て、適応的ビデオトークン化のための原則的フレームワークInfoTokを紹介する。
我々は,既存のデータに依存しない訓練手法が表現長に最適でないことを厳密に証明し,理論的最適性にアプローチする新たなエビデンス・ローバウンド(ELBO)に基づくアルゴリズムを提案する。
この枠組みを応用して,適応トークン化を実現する変圧器ベースの適応圧縮機を開発した。
実証的な結果は、最先端の圧縮性能を示し、性能に影響を与えずに20%のトークンを節約し、2.3倍の圧縮率を達成し、なおも事前ヒューリスティック適応アプローチよりも優れていた。
InfoTokは、情報豊かさに応じてトークンを割り当てることによって、ビデオ表現をより圧縮して正確なトークン化を可能にし、将来の研究に有用な洞察を提供する。
関連論文リスト
- UniComp: Rethinking Video Compression Through Informational Uniqueness [16.98296446798904]
UniCompは、制約のある計算予算の下で、ビデオ表現の情報忠実度を最大化することを目的としている。
本稿では,情報固有性の概念を導入して,トークン間の固有冗長性を計測し,再構成誤差とリンクする。
論文 参考訳(メタデータ) (2025-12-03T08:56:23Z) - VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - High-Efficiency Lossy Image Coding Through Adaptive Neighborhood
Information Aggregation [37.02522504535854]
圧縮性能とスループットの両方に優れた効率のロスシー画像符号化(lic)は難しい。
提案手法は,コダック,CLIC,Tecnickの各データセットの平均値に対して,$approx$15%のBDレート改善を施したVVCイントラよりも優れた圧縮性能を報告した。
論文 参考訳(メタデータ) (2022-04-25T05:40:57Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。