論文の概要: Multi-Token Attention
- arxiv url: http://arxiv.org/abs/2504.00927v1
- Date: Tue, 01 Apr 2025 15:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:48.534337
- Title: Multi-Token Attention
- Title(参考訳): マルチトークンアテンション
- Authors: Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar,
- Abstract要約: 本稿では,複数クエリとキーベクトルを同時に重み付けできる新しいアテンション手法であるMulti-Token Attention (MTA)を提案する。
提案手法は, 1つのベクトルの容量を超えるような, より豊かでニュアンスの高い情報を用いて, 関連するコンテキストを特定できる。
- 参考スコア(独自算出の注目度): 42.038277620194
- License:
- Abstract: Soft attention is a critical mechanism powering LLMs to locate relevant parts within a given context. However, individual attention weights are determined by the similarity of only a single query and key token vector. This "single token attention" bottlenecks the amount of information used in distinguishing a relevant part from the rest of the context. To address this issue, we propose a new attention method, Multi-Token Attention (MTA), which allows LLMs to condition their attention weights on multiple query and key vectors simultaneously. This is achieved by applying convolution operations over queries, keys and heads, allowing nearby queries and keys to affect each other's attention weights for more precise attention. As a result, our method can locate relevant context using richer, more nuanced information that can exceed a single vector's capacity. Through extensive evaluations, we demonstrate that MTA achieves enhanced performance on a range of popular benchmarks. Notably, it outperforms Transformer baseline models on standard language modeling tasks, and on tasks that require searching for information within long contexts, where our method's ability to leverage richer information proves particularly beneficial.
- Abstract(参考訳): ソフトアテンション(Soft attention)は、LLMが特定のコンテキスト内で関連する部分を見つけるための重要なメカニズムである。
しかし、個々の注意重みは単一のクエリとキートークンベクトルの類似性によって決定される。
この"単一トークンの注意"は、関連する部分とコンテキストの他の部分とを区別するために使用される情報の量をボトルネックにします。
この問題に対処するために,LLMが複数のクエリとキーベクトルを同時に重み付けできる新しいアテンション手法であるMulti-Token Attention (MTA)を提案する。
これは、クエリ、キー、ヘッドに畳み込み操作を適用することで実現される。
その結果、よりリッチでニュアンスの高い情報を用いて1つのベクトルの容量を超える関連コンテキストを見つけることができる。
広範囲な評価により, MTA は, 様々なベンチマークにおいて, 性能の向上を図っている。
特に、トランスフォーマーのベースラインモデルでは、標準的な言語モデリングタスクや、よりリッチな情報を活用する方法の能力が特に有益である長いコンテキスト内での情報検索を必要とするタスクよりも優れています。
関連論文リスト
- Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。
これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。
大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文 参考訳(メタデータ) (2025-02-03T17:47:03Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Multi-Modal Proxy Learning Towards Personalized Visual Multiple Clustering [8.447067012487866]
マルチMaPは,マルチモーダルなプロキシ学習プロセスを用いた新しい手法である。
キーワードを通じてユーザの関心をキャプチャすると同時に、関連するクラスタリングの特定を容易にする。
実験の結果,Multi-MaPは全ベンチマークのマルチクラスタ・ビジョンタスクにおいて常に最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-24T05:20:42Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。