論文の概要: Communication-Inspired Tokenization for Structured Image Representations
- arxiv url: http://arxiv.org/abs/2602.20731v1
- Date: Tue, 24 Feb 2026 09:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.705878
- Title: Communication-Inspired Tokenization for Structured Image Representations
- Title(参考訳): 構造化画像表現のためのコミュニケーションインスパイアされたトークン化
- Authors: Aram Davtyan, Yusuf Sahin, Yasaman Haghighi, Sebastian Stapf, Pablo Acuaviva, Alexandre Alahi, Paolo Favaro,
- Abstract要約: COMiT(Communication inspired Tokenization)は、構造化された視覚トークンシーケンスを学習するためのフレームワークである。
セマンティックアライメントが基盤となる一方で、解釈可能なオブジェクト中心のトークン構造を誘導するためには、注意的なシーケンシャルトークン化が重要であることを示す。
- 参考スコア(独自算出の注目度): 74.17163003465537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete image tokenizers have emerged as a key component of modern vision and multimodal systems, providing a sequential interface for transformer-based architectures. However, most existing approaches remain primarily optimized for reconstruction and compression, often yielding tokens that capture local texture rather than object-level semantic structure. Inspired by the incremental and compositional nature of human communication, we introduce COMmunication inspired Tokenization (COMiT), a framework for learning structured discrete visual token sequences. COMiT constructs a latent message within a fixed token budget by iteratively observing localized image crops and recurrently updating its discrete representation. At each step, the model integrates new visual information while refining and reorganizing the existing token sequence. After several encoding iterations, the final message conditions a flow-matching decoder that reconstructs the full image. Both encoding and decoding are implemented within a single transformer model and trained end-to-end using a combination of flow-matching reconstruction and semantic representation alignment losses. Our experiments demonstrate that while semantic alignment provides grounding, attentive sequential tokenization is critical for inducing interpretable, object-centric token structure and substantially improving compositional generalization and relational reasoning over prior methods.
- Abstract(参考訳): 離散画像トークン化器は、現代のビジョンとマルチモーダルシステムのキーコンポーネントとして登場し、トランスフォーマーベースのアーキテクチャのためのシーケンシャルインターフェースを提供している。
しかし、既存のほとんどのアプローチは、主に再構築と圧縮に最適化されており、多くの場合、オブジェクトレベルの意味構造ではなく、局所的なテクスチャをキャプチャするトークンが生成される。
人間のコミュニケーションの漸進的かつ構成的な性質に着想を得て,構造化された離散的な視覚トークンシーケンスを学習するためのフレームワークである,コミュニケーションインスパイアされたトークン化(COMiT)を導入する。
COMiTは、固定トークン予算内で、局所化された画像作物を反復的に観察し、その離散表現を反復的に更新することで、潜時メッセージを構築する。
各ステップで、モデルは既存のトークンシーケンスを書き換え、再構成しながら、新しいビジュアル情報を統合する。
繰り返しの符号化の後、最後のメッセージはフルイメージを再構成するフローマッチングデコーダを条件とする。
符号化と復号の両方を単一変圧器モデルで実装し、フローマッチング再構成とセマンティックな表現アライメントの損失を組み合わせたエンドツーエンドで訓練する。
本実験は, 意味的アライメントが基底となる一方で, 逐次的トークン化は, 解釈可能な, 対象中心のトークン構造を誘導し, 先行手法による合成一般化と関係推論を大幅に改善する上で重要であることを示した。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer [50.69959748410398]
我々は,自己回帰生成と理解を統一するための連続的な潜在空間を持つ新しい視覚トークンのファミリーであるMingTokを紹介する。
MingTokは低レベルエンコーディング、セマンティック拡張、視覚再構成を含む3段階のシーケンシャルアーキテクチャを採用している。
この上に構築されたMing-UniVisionは、タスク固有の視覚表現の必要性を排除し、単一の自己回帰予測パラダイムの下で多様な視覚言語タスクを統一する。
論文 参考訳(メタデータ) (2025-10-08T02:50:14Z) - Tokenize Image as a Set [17.142970970610616]
本稿では,局所的意味複雑性に基づく符号化能力の動的割り当てを行うために,非順序付きトークン集合表現を導入する。
離散集合をモデル化することの課題に対処するために、集合を固定長整数列に変換する双対変換機構を考案する。
提案手法のセマンティック・アウェア表現と生成品質における優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-03-20T17:59:51Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Lexical Manifold Reconfiguration in Large Language Models: A Novel Architectural Approach for Contextual Modulation [0.0]
連続的な幾何学的変換を通じてトークン埋め込みを動的に再構成するための構造化手法を開発した。
多様体をベースとした変換機構は、語彙的位置決めを規制するために統合され、埋め込みは制御されたシフトを受けることができる。
経験的評価により, 組込み再構成は難易度低減, 語彙コヒーレンスの改善, 文レベルの連続性の向上に寄与した。
論文 参考訳(メタデータ) (2025-02-12T22:11:07Z) - Hierarchical Lexical Manifold Projection in Large Language Models: A Novel Mechanism for Multi-Scale Semantic Representation [0.0]
構造的階層的埋め込みをトランスフォーマーベースのアーキテクチャに統合することで、語彙表現に対する洗練されたアプローチが導入された。
トークンを構造化多様体にマッピングする射影機構は、改善された語彙アライメントを提供する。
埋め込みの洗練された階層構造は、語彙モデリングにおいてより大きな解釈可能性をもたらす。
論文 参考訳(メタデータ) (2025-02-08T00:49:32Z) - Contextually Structured Token Dependency Encoding for Large Language Models [0.0]
自己注意機構は動的文脈依存を捉えるが、学習した重み分布への依存は、生成配列における長距離階層構造の保存を制限する。
依存性を意識したトークンエンコーディングでは,トークン表現内にリレーショナル制約を埋め込むという,構造化されたアプローチが導入されている。
経験的評価は、多種多様な言語ベンチマークにおけるパープレキシティの低下を示し、自己回帰テキスト生成における文脈的一貫性と予測一貫性の改善を示唆している。
論文 参考訳(メタデータ) (2025-01-30T08:51:48Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。