論文の概要: Compression Tells Intelligence: Visual Coding, Visual Token Technology, and the Unification
- arxiv url: http://arxiv.org/abs/2601.20742v1
- Date: Wed, 28 Jan 2026 16:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.016143
- Title: Compression Tells Intelligence: Visual Coding, Visual Token Technology, and the Unification
- Title(参考訳): Compressionがインテリジェンスを語る:ビジュアルコーディング、ビジュアルトークン技術、統一
- Authors: Xin Jin, Jinming Liu, Yuntao Wei, Junyan Lin, Zhicheng Wang, Jianguo Huang, Xudong Yang, Yanxiao Liu, Wenjun Zeng,
- Abstract要約: 人工知能の研究、特に(マルチモーダル)大規模言語モデル(LLMs/MLLMs)が支援されている。
本稿では,ビジュアルコーディングとビジョントークン技術という2つの主要な技術ファミリについて概観する。
我々は,マルチモーダルLLM(MLLM),AIGC(AIGC),具体的AIといった,より実用的なタスクにおけるタスク指向トークン開発の可能性について実験的に示す。
- 参考スコア(独自算出の注目度): 23.26600803714466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: "Compression Tells Intelligence", is supported by research in artificial intelligence, particularly concerning (multimodal) large language models (LLMs/MLLMs), where compression efficiency often correlates with improved model performance and capabilities. For compression, classical visual coding based on traditional information theory has developed over decades, achieving great success with numerous international industrial standards widely applied in multimedia (e.g., image/video) systems. Except that, the recent emergingvisual token technology of generative multi-modal large models also shares a similar fundamental objective like visual coding: maximizing semantic information fidelity during the representation learning while minimizing computational cost. Therefore, this paper provides a comprehensive overview of two dominant technique families first -- Visual Coding and Vision Token Technology -- then we further unify them from the aspect of optimization, discussing the essence of compression efficiency and model performance trade-off behind. Next, based on the proposed unified formulation bridging visual coding andvisual token technology, we synthesize bidirectional insights of themselves and forecast the next-gen visual codec and token techniques. Last but not least, we experimentally show a large potential of the task-oriented token developments in the more practical tasks like multimodal LLMs (MLLMs), AI-generated content (AIGC), and embodied AI, as well as shedding light on the future possibility of standardizing a general token technology like the traditional codecs (e.g., H.264/265) with high efficiency for a wide range of intelligent tasks in a unified and effective manner.
- Abstract(参考訳): 特に(マルチモーダル)大規模言語モデル(LLMs/MLLMs)では、圧縮効率がモデル性能と能力の改善と相関することが多い。
圧縮のためには、従来の情報理論に基づく古典的なビジュアルコーディングが数十年にわたって発展し、マルチメディア(例えば画像/ビデオ)システムに広く適用されている多くの国際産業標準において大きな成功を収めている。
それ以外は、生成的マルチモーダル大モデルの最近登場した視覚トークン技術は、視覚符号化と同様に、計算コストを最小化しつつ、表現学習中の意味情報の忠実度を最大化するという、基本的な目的を共有している。
そこで本稿では,まず視覚符号化とビジョントークン技術という2つの主要な技術ファミリの概要を概観し,圧縮効率の本質とモデル性能のトレードオフを論じ,最適化の観点からそれらをさらに統合する。
次に,視覚的符号化および視覚的トークン技術をブリッジする統一的な定式化に基づいて,自己の双方向的な洞察を合成し,次世代の視覚コーデックおよびトークン技術を予測する。
最後に、マルチモーダルLSM(MLLM)、AIGC(AIGC)、エンボディAIといったより実用的なタスクにおけるタスク指向トークン開発の可能性について実験的に示すとともに、従来のコーデック(H.264/265など)のような一般的なトークン技術を統一的で効果的な方法で高効率で標準化する可能性についても光を当てている。
関連論文リスト
- ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - Revisiting MLLM Token Technology through the Lens of Classical Visual Coding [16.905045322159953]
本稿では,トークン化,トークン圧縮,トークン推論などのMLLMトークン技術を再検討する。
本研究は,MLLMトークンと視覚符号化の包括的および構造的比較を行った最初の技術である。
論文 参考訳(メタデータ) (2025-08-19T02:36:44Z) - VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models [82.05514464090172]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解の統合を著しく進歩させてきた。
しかし、マルチモーダル入力からコードを生成する能力は依然として限られている。
視覚とコーディング言語モデルをシームレスにマージする統合フレームワークであるVisCodexを紹介します。
論文 参考訳(メタデータ) (2025-08-13T17:00:44Z) - Token Sequence Compression for Efficient Multimodal Computing [0.19116784879310028]
LMM(Large Multimodal Models)の指数的成長は、クロスモーダル推論の進歩を誘導しているが、計算コストは相当である。
我々は、現在の視覚エンコーダの冗長性と非効率性を強調し、マルチモーダルデータに対する適応圧縮手法の構築を目指す。
この研究は、高次元データのより効率的なエンコーディングと処理に向けた最初の取り組みであり、よりスケーラブルで持続可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2025-04-24T19:11:10Z) - Expanding the Boundaries of Vision Prior Knowledge in Multi-modal Large Language Models [51.84752285423123]
本稿では,ビジョンエンコーダの事前知識がMLLM性能に与える影響を定量化するために,新しい計量である$Rank_e$を導入する。
視覚エンコーダレベルでの事前知識を明確に組み込んだ2段階トレーニングフレームワークであるVisPRE(Vision Prior Remediation)を提案する。
実験の結果,視覚エンコーダの事前知識の増大はMLLMの視覚理解能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-03-23T11:33:09Z) - From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual Modalities [31.108694010274988]
本稿では,Byte-Pairの原理を適用し,このギャップを埋める新しい画像トークンを提案する。
視覚的エンコーダの分離に依存する従来の手法とは異なり,本手法では構造的事前情報を画像トークンに直接組み込む。
この革新的なアプローチにより、Transformerモデルはモダリティをより効果的に学習し、推論することができる。
論文 参考訳(メタデータ) (2024-10-03T02:34:31Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。