論文の概要: A More Word-like Image Tokenization for MLLMs
- arxiv url: http://arxiv.org/abs/2605.17954v1
- Date: Mon, 18 May 2026 07:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.940169
- Title: A More Word-like Image Tokenization for MLLMs
- Title(参考訳): MLLMのための単語ライクな画像トークン化
- Authors: Hyun Lee, Hyemin Jeong, Yejin Kim, Hyungwook Choi, Hyunsoo Cho, Soo Kyung Kim, Joonseok Lee,
- Abstract要約: 本稿では,コヒーレントなセマンティックユニットへのパッチの埋め込みをクラスタ化するDisentangled Visual Tokenization (DiVT)を提案する。
多様なマルチモーダルベンチマークで、DiVTはベースラインにマッチするか、はるかに少ないビジュアルトークンで超える。
- 参考スコア(独自算出の注目度): 26.120899392740203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern multimodal large language models (MLLMs) typically keep the language model fixed and train a visual projector that maps the pixels into a sequence of tokens in its embedding space, so that images can be presented in essentially the same form as text. However, the language model has been optimized to operate on discrete, semantically meaningful tokens, while prevailing visual projectors transform an image into a long stream of continuous and highly correlated embeddings. This causes the visual tokens to behave differently from the word-like units that LLMs are originally trained to understand. We propose a novel Disentangled Visual Tokenization (DiVT) that clusters patch embeddings into coherent semantic units, so each token corresponds to a distinct visual concept instead of a rigid grid cell. DiVT further adapts its token budget to image complexity, providing an explicit accuracy-compute trade-off modifying neither the vision encoder nor the language model. Across diverse multimodal benchmarks, DiVT matches or surpasses baselines with significantly fewer visual tokens, demonstrating robustness under limited token budgets, significantly reducing memory cost and latency while making visual inputs more compatible with LLMs. Our code is available at https://github.com/snuviplab/DiVT.
- Abstract(参考訳): 現代のマルチモーダル大言語モデル(MLLM)は、通常、言語モデルを固定し、その埋め込み空間のトークン列にピクセルをマッピングする視覚プロジェクターを訓練する。
しかし、言語モデルは、個々の意味的に意味のあるトークンを操作するように最適化され、一方、一般的な視覚プロジェクタは、画像を連続的で高相関の埋め込みの長いストリームに変換する。
これにより、視覚トークンは、LLMが本来理解するために訓練された単語のような単位とは異なる振る舞いをする。
そこで本稿では,クラスタのパッチの組込みをコヒーレントなセマンティックなユニットに組み込むディスタングル・ビジュアル・トークン化(DiVT)を提案する。
DiVTはさらに、トークン予算を画像の複雑さに適応させ、視覚エンコーダも言語モデルも変更しない明示的な精度と計算のトレードオフを提供する。
多様なマルチモーダルベンチマークにおいて、DiVTはベースラインにマッチするか、はるかに少ない視覚トークンで上回り、限られたトークン予算の下で堅牢性を証明し、メモリコストとレイテンシを著しく低減し、視覚入力をLLMとより互換性のあるものにする。
私たちのコードはhttps://github.com/snuviplab/DiVT.comで利用可能です。
関連論文リスト
- Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。
中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。
ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文 参考訳(メタデータ) (2025-06-23T17:59:14Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。