論文の概要: InfoTok: Regulating Information Flow for Capacity-Constrained Shared Visual Tokenization in Unified MLLMs
- arxiv url: http://arxiv.org/abs/2602.01554v1
- Date: Mon, 02 Feb 2026 02:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.849854
- Title: InfoTok: Regulating Information Flow for Capacity-Constrained Shared Visual Tokenization in Unified MLLMs
- Title(参考訳): InfoTok:Unified MLLMにおける容量制約付き共有視覚トークン化のための情報フローの制御
- Authors: Lv Tang, Tianyi Zheng, Bo Li, Xingyu Li,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、画像の理解と生成を単一のフレームワークに統合する。
本稿では、共有トークン統合MLLMにおいて、視覚的トークン化器が計算バウンド学習者として振る舞うことを強調して、キャパシティに制約のある視点を紹介する。
この観点から,情報調整型視覚トークン化機構であるInfoTokを提案する。
- 参考スコア(独自算出の注目度): 29.96158942341168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal large language models (MLLMs) integrate image understanding and generation in a single framework, with the visual tokenizer acting as the sole interface that maps visual inputs into tokens for downstream tasks. However, existing shared-token designs are mostly architecture-driven and lack an explicit criterion for what information tokens should preserve to support both understanding and generation. Therefore, we introduce a capacity-constrained perspective, highlighting that in shared-token unified MLLMs the visual tokenizer behaves as a compute-bounded learner, so the token budget should prioritize reusable structure over hard-to-exploit high-entropy variations and redundancy. Motivated by this perspective, we propose InfoTok, an information-regularized visual tokenization mechanism grounded in the Information Bottleneck (IB) principle. InfoTok formulates tokenization as controlling information flow from images to shared tokens to multimodal outputs, yielding a principled trade-off between compression and task relevance via mutual-information regularization. We integrate InfoTok into three representative unified MLLMs without introducing any additional training data. Experiments show consistent improvements on both understanding and generation, supporting information-regularized tokenization as a principled foundation for learning a shared token space in unified MLLMs.
- Abstract(参考訳): MLLM(Unified Multimodal Large Language Model)は、視覚的な入力を下流タスクのトークンにマッピングする唯一のインターフェースとして機能し、画像理解と生成を単一のフレームワークに統合する。
しかし、既存の共有トークンの設計はアーキテクチャ駆動であり、理解と生成の両方をサポートするために情報トークンが保持すべきものを明確に規定していない。
そこで我々は,共有トークン統合MLLMにおいて,視覚的トークン化者が計算バウンド学習者として振る舞うことを強調し,高エントロピー変動や冗長性よりも,トークン予算が再利用可能な構造を優先すべきであることを示す。
この観点から,情報ボトルネック(IB)の原理に基づく情報規則化視覚トークン化機構であるInfoTokを提案する。
InfoTokは、画像から共有トークンからマルチモーダル出力への情報フローの制御としてトークン化を定式化し、相互情報正規化による圧縮とタスク関連性の原則的なトレードオフをもたらす。
我々はInfoTokを、追加のトレーニングデータを導入することなく、3つの代表的な統合MLLMに統合する。
実験は理解と生成の両面で一貫した改善を示し、統一MLLMにおいて共有トークン空間を学習するための原則的基盤として情報規則化トークン化をサポートする。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。
本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。
我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文 参考訳(メタデータ) (2025-07-02T14:03:01Z) - Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM [21.967692616735196]
マルチモーダル大規模言語モデル (MLLM) は、人工知能の実現において重要なアプローチとして登場した。
MLLMに特化してSlot Attentionに基づくオブジェクト中心型ビジュアルトークンを提案する。
この研究は、MLLMや地中自然画像を用いたオブジェクト中心のスロットアテンションの実現可能性の最初の実証である。
論文 参考訳(メタデータ) (2025-05-23T10:43:45Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。
本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文 参考訳(メタデータ) (2025-03-17T09:31:14Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - ActiveMLP: An MLP-like Architecture with Active Token Mixer [54.95923719553343]
本稿では,コンピュータビジョンのための一般的なバックボーンであるActiveMLPを提案する。
我々は、グローバルな範囲の他のトークンからのコンテキスト情報を与えられたトークンに積極的に組み込む、Active Token Mixer (ATM)と呼ばれる革新的なトークンミキサーを提案する。
このように、トークンミキシングの空間範囲を拡大し、トークンミキシングの方法を変更する。
論文 参考訳(メタデータ) (2022-03-11T17:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。