論文の概要: Communication-Inspired Tokenization for Structured Image Representations
- arxiv url: http://arxiv.org/abs/2602.20731v1
- Date: Tue, 24 Feb 2026 09:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.705878
- Title: Communication-Inspired Tokenization for Structured Image Representations
- Title(参考訳): 構造化画像表現のためのコミュニケーションインスパイアされたトークン化
- Authors: Aram Davtyan, Yusuf Sahin, Yasaman Haghighi, Sebastian Stapf, Pablo Acuaviva, Alexandre Alahi, Paolo Favaro,
- Abstract要約: COMiT(Communication inspired Tokenization)は、構造化された視覚トークンシーケンスを学習するためのフレームワークである。
セマンティックアライメントが基盤となる一方で、解釈可能なオブジェクト中心のトークン構造を誘導するためには、注意的なシーケンシャルトークン化が重要であることを示す。
- 参考スコア(独自算出の注目度): 74.17163003465537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete image tokenizers have emerged as a key component of modern vision and multimodal systems, providing a sequential interface for transformer-based architectures. However, most existing approaches remain primarily optimized for reconstruction and compression, often yielding tokens that capture local texture rather than object-level semantic structure. Inspired by the incremental and compositional nature of human communication, we introduce COMmunication inspired Tokenization (COMiT), a framework for learning structured discrete visual token sequences. COMiT constructs a latent message within a fixed token budget by iteratively observing localized image crops and recurrently updating its discrete representation. At each step, the model integrates new visual information while refining and reorganizing the existing token sequence. After several encoding iterations, the final message conditions a flow-matching decoder that reconstructs the full image. Both encoding and decoding are implemented within a single transformer model and trained end-to-end using a combination of flow-matching reconstruction and semantic representation alignment losses. Our experiments demonstrate that while semantic alignment provides grounding, attentive sequential tokenization is critical for inducing interpretable, object-centric token structure and substantially improving compositional generalization and relational reasoning over prior methods.
- Abstract(参考訳): 離散画像トークン化器は、現代のビジョンとマルチモーダルシステムのキーコンポーネントとして登場し、トランスフォーマーベースのアーキテクチャのためのシーケンシャルインターフェースを提供している。
しかし、既存のほとんどのアプローチは、主に再構築と圧縮に最適化されており、多くの場合、オブジェクトレベルの意味構造ではなく、局所的なテクスチャをキャプチャするトークンが生成される。
人間のコミュニケーションの漸進的かつ構成的な性質に着想を得て,構造化された離散的な視覚トークンシーケンスを学習するためのフレームワークである,コミュニケーションインスパイアされたトークン化(COMiT)を導入する。
COMiTは、固定トークン予算内で、局所化された画像作物を反復的に観察し、その離散表現を反復的に更新することで、潜時メッセージを構築する。
各ステップで、モデルは既存のトークンシーケンスを書き換え、再構成しながら、新しいビジュアル情報を統合する。
繰り返しの符号化の後、最後のメッセージはフルイメージを再構成するフローマッチングデコーダを条件とする。
符号化と復号の両方を単一変圧器モデルで実装し、フローマッチング再構成とセマンティックな表現アライメントの損失を組み合わせたエンドツーエンドで訓練する。
本実験は, 意味的アライメントが基底となる一方で, 逐次的トークン化は, 解釈可能な, 対象中心のトークン構造を誘導し, 先行手法による合成一般化と関係推論を大幅に改善する上で重要であることを示した。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Contextually Structured Token Dependency Encoding for Large Language Models [0.0]
自己注意機構は動的文脈依存を捉えるが、学習した重み分布への依存は、生成配列における長距離階層構造の保存を制限する。
依存性を意識したトークンエンコーディングでは,トークン表現内にリレーショナル制約を埋め込むという,構造化されたアプローチが導入されている。
経験的評価は、多種多様な言語ベンチマークにおけるパープレキシティの低下を示し、自己回帰テキスト生成における文脈的一貫性と予測一貫性の改善を示唆している。
論文 参考訳(メタデータ) (2025-01-30T08:51:48Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。