論文の概要: Enhancing Latent Computation in Transformers with Latent Tokens
- arxiv url: http://arxiv.org/abs/2505.12629v1
- Date: Mon, 19 May 2025 02:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.357435
- Title: Enhancing Latent Computation in Transformers with Latent Tokens
- Title(参考訳): 潜時トークンを用いた変圧器における潜時計算の強化
- Authors: Yuchang Sun, Yanxi Chen, Yaliang Li, Bolin Ding,
- Abstract要約: 補助トークンを用いた大規模言語モデルの拡張が,モデル性能向上のための有望な戦略として浮上している。
我々は遅延トークンと呼ばれる軽量な手法を導入し、これらは自然言語では解釈不能なダミートークンである。
提案した潜在トークンは、トレーニング済みのTransformerとシームレスに統合され、パラメータ効率のよい方法で訓練され、推論時に柔軟に適用できる。
- 参考スコア(独自算出の注目度): 48.371764897314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmenting large language models (LLMs) with auxiliary tokens has emerged as a promising strategy for enhancing model performance. In this work, we introduce a lightweight method termed latent tokens; these are dummy tokens that may be non-interpretable in natural language but steer the autoregressive decoding process of a Transformer-based LLM via the attention mechanism. The proposed latent tokens can be seamlessly integrated with a pre-trained Transformer, trained in a parameter-efficient manner, and applied flexibly at inference time, while adding minimal complexity overhead to the existing infrastructure of standard Transformers. We propose several hypotheses about the underlying mechanisms of latent tokens and design synthetic tasks accordingly to verify them. Numerical results confirm that the proposed method noticeably outperforms the baselines, particularly in the out-of-distribution generalization scenarios, highlighting its potential in improving the adaptability of LLMs.
- Abstract(参考訳): 補助トークンによる大規模言語モデル(LLM)の拡張は、モデルパフォーマンスを向上させるための有望な戦略として現れている。
本研究では,自然言語では解釈できないが,アテンション機構を介してトランスフォーマーベースのLDMの自己回帰復号処理を行うダミートークンについて述べる。
提案した潜在トークンは、パラメータ効率のよい方法でトレーニングされたトレーニング済みのTransformerとシームレスに統合することができ、推論時に柔軟に適用できると同時に、標準Transformerの既存のインフラストラクチャに最小限の複雑さのオーバーヘッドを追加することができる。
本稿では,潜在トークンの基本機構に関するいくつかの仮説を提案し,それらを検証するために合成タスクを設計する。
数値計算により, 提案手法は, 特に分布外一般化シナリオにおいて, ベースラインよりも顕著に優れており, LLMの適応性向上の可能性を浮き彫りにしている。
関連論文リスト
- Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される
現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。
自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文 参考訳(メタデータ) (2024-12-22T21:56:15Z) - ULTra: Unveiling Latent Token Interpretability in Transformer-Based Understanding and Segmentation [14.84547724351634]
ULTraはトランスフォーマーの埋め込みを解釈し、意味のある意味的パターンを明らかにするためのフレームワークである。
モデルを変更することなく外部変換行列を学習し,セグメンテーション性能を向上する自己教師型トレーニング手法を提案する。
我々は、オブジェクト選択や解釈可能なテキスト要約を含む、合成シナリオと実世界のシナリオの両方において、モデル解釈のためのULTraを検証する。
論文 参考訳(メタデータ) (2024-11-15T19:36:50Z) - Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。
典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。
微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:20:39Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Certified Robustness to Programmable Transformations in LSTMs [14.587069421684157]
自然言語処理のためのディープニューラルネットワークは、逆の例に直面して脆弱である。
本稿では,LSTMを効率よく検証可能な拡張LSTMの認証手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T19:54:59Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。