論文の概要: Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality
- arxiv url: http://arxiv.org/abs/2505.18227v1
- Date: Fri, 23 May 2025 11:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.233577
- Title: Token Reduction Should Go Beyond Efficiency in Generative Models -- From Vision, Language to Multimodality
- Title(参考訳): トーケン削減は、生成モデルにおける効率性を超えるべきである -- 視覚、言語、マルチモーダリティまで
- Authors: Zhenglun Kong, Yize Li, Fanhu Zeng, Lei Xin, Shvat Messica, Xue Lin, Pu Zhao, Manolis Kellis, Hao Tang, Marinka Zitnik,
- Abstract要約: 本稿では, トークン削減は, 大規模生成モデルの時代において, 従来の効率重視の役割を超越すべきであると主張する。
トークンの削減は、より深いマルチモーダル統合とアライメントを促進し、長い入力に対するコヒーレンスを維持し、トレーニングの安定性を高めることができると我々は主張する。
我々は、アルゴリズム設計、強化学習誘導トークン削減、文脈内学習のためのトークン最適化、より広範なMLおよび科学領域を含む将来的な方向性について概説する。
- 参考スコア(独自算出の注目度): 29.531450446701175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Transformer architectures, tokens\textemdash discrete units derived from raw data\textemdash are formed by segmenting inputs into fixed-length chunks. Each token is then mapped to an embedding, enabling parallel attention computations while preserving the input's essential information. Due to the quadratic computational complexity of transformer self-attention mechanisms, token reduction has primarily been used as an efficiency strategy. This is especially true in single vision and language domains, where it helps balance computational costs, memory usage, and inference latency. Despite these advances, this paper argues that token reduction should transcend its traditional efficiency-oriented role in the era of large generative models. Instead, we position it as a fundamental principle in generative modeling, critically influencing both model architecture and broader applications. Specifically, we contend that across vision, language, and multimodal systems, token reduction can: (i) facilitate deeper multimodal integration and alignment, (ii) mitigate "overthinking" and hallucinations, (iii) maintain coherence over long inputs, and (iv) enhance training stability, etc. We reframe token reduction as more than an efficiency measure. By doing so, we outline promising future directions, including algorithm design, reinforcement learning-guided token reduction, token optimization for in-context learning, and broader ML and scientific domains. We highlight its potential to drive new model architectures and learning strategies that improve robustness, increase interpretability, and better align with the objectives of generative modeling.
- Abstract(参考訳): Transformerアーキテクチャでは、生データから派生したトークン\textemdash離散単位は、入力を固定長のチャンクに分割することによって形成される。
それぞれのトークンは埋め込みにマッピングされ、入力の必須情報を保存しながら並列注意計算が可能となる。
変圧器自己保持機構の2次計算複雑性のため、トークンの低減は効率の戦略として主に用いられてきた。
これは、計算コスト、メモリ使用量、推論レイテンシのバランスをとるのに役立つ、単一のビジョンと言語ドメインで特に当てはまる。
これらの進歩にもかかわらず、大規模な生成モデルの時代において、トークンの削減は伝統的な効率指向の役割を超越すべきである、と論じる。
代わりに、モデルアーキテクチャとより広範なアプリケーションの両方に批判的に影響を及ぼす、生成モデリングの基本的な原則として位置付ける。
具体的には、視覚、言語、マルチモーダルシステムを通して、トークンの削減が可能であることを主張する。
(i)より深いマルチモーダル統合とアライメントを促進する。
(二)「過度な考え」と幻覚を和らげる。
三 長い入力に対する一貫性を維持すること、
(四)訓練安定性等を高めること。
私たちはトークンの削減を効率性以上のものとして再設定しました。
これにより、アルゴリズム設計、強化学習誘導トークン削減、文脈内学習のためのトークン最適化、より広範なMLおよび科学領域を含む将来的な方向性を概説する。
我々は、ロバスト性を改善し、解釈可能性を高め、生成的モデリングの目的との整合性を向上する新しいモデルアーキテクチャと学習戦略を推進する可能性を強調します。
関連論文リスト
- Enhancing Transformers Through Conditioned Embedded Tokens [28.80560770188464]
本研究では,アテンションブロックの条件付けと埋め込みトークン化データの条件付けの直接的な関係を確立する理論的枠組みを開発する。
本研究では,アテンション機構のコンディショニングを改善するために,組込みトークンを体系的に修正するコンディショニングトークンを導入する。
我々の分析は、このアプローチが不調を著しく軽減し、より安定かつ効率的な訓練につながることを示している。
論文 参考訳(メタデータ) (2025-05-19T07:21:53Z) - Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling [10.985444895887207]
本稿では,言語モデリング性能を向上させるために,入力語彙と出力語彙を分離するフレームワークであるOver-Tokenized Transformersを紹介する。
入力語彙サイズとトレーニング損失の関係を明らかにすることで,より大きな入力語彙がモデル性能を継続的に向上することを示す。
本研究は, スケーリング法則におけるトークン化の重要性を強調し, トークン化設計の実践的洞察を提供するものである。
論文 参考訳(メタデータ) (2025-01-28T14:15:42Z) - Autonomous Structural Memory Manipulation for Large Language Models Using Hierarchical Embedding Augmentation [0.0]
本研究では,マルチレベルセマンティック構造を通じてトークンの表現を再定義する手段として,階層的な埋め込み拡張を導入する。
その結果、より長い入力シーケンスに対して処理オーバーヘッドが大幅に削減され、計算効率が大幅に向上した。
トークン表現とメモリ構成を動的に調整する能力は、様々な予測不可能な入力条件下でモデルの堅牢性に寄与した。
論文 参考訳(メタデータ) (2025-01-23T22:20:36Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。
システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。
画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文 参考訳(メタデータ) (2024-10-14T08:21:00Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。