Fugu-MT 論文翻訳(概要): KV Shifting Attention Enhances Language Modeling

論文の概要: KV Shifting Attention Enhances Language Modeling

arxiv url: http://arxiv.org/abs/2411.19574v2
Date: Thu, 05 Dec 2024 12:19:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 14:17:01.597753
Title: KV Shifting Attention Enhances Language Modeling
Title（参考訳）: KVシフトアテンションが言語モデリングを強化
Authors: Mingyu Xu, Wei Cheng, Bingning Wang, Weipeng Chen,
Abstract要約: 現在の大規模言語モデルは、主に、文脈内学習能力の優れたデコードのみの構造変換器に基づいている。モデル誘導の能力をより効率的に実装するために、KVシフト注意を提案する。実験結果から,KVシフト注意が学習誘導ヘッドや言語モデリングに有用であることが示唆された。
参考スコア（独自算出の注目度）: 10.265219156828907
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The current large language models are mainly based on decode-only structure transformers, which have great in-context learning (ICL) capabilities. It is generally believed that the important foundation of its ICL capability is the induction heads mechanism, which requires at least two layers attention. In order to more efficiently implement the ability of the model's induction, we revisit the induction heads mechanism and proposed a KV shifting attention. We theoretically prove that the KV shifting attention reducing the model's requirements for the depth and width of the induction heads mechanism. Our experimental results demonstrate that KV shifting attention is beneficial to learning induction heads and language modeling, which lead to better performance or faster convergence from toy models to the pre-training models with more than 10 B parameters.
Abstract（参考訳）: 現在の大規模言語モデルは、主に、文脈内学習(ICL)機能を持つデコードのみの構造変換器に基づいている。 ICLの能力の重要な基盤は誘導ヘッド機構であり、少なくとも2層は注意が必要であると一般的に信じられている。モデルの誘導能力をより効率的に実装するために、誘導ヘッド機構を再検討し、KVシフト注意を提案する。理論的には、KVシフトアテンションは誘導ヘッド機構の深さと幅に対するモデルの要求を減少させる。実験の結果,KVシフトの注意は学習誘導ヘッドや言語モデリングに有用であることが示され,玩具モデルから10以上のパラメータを持つ事前学習モデルへのより優れた性能やより高速な収束がもたらされた。

関連論文リスト

KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文参考訳（メタデータ） (2025-07-15T12:52:12Z)
Neural Attention: A Novel Mechanism for Enhanced Expressive Power in Transformer Models [0.0]
本稿では,ドット積をフィードフォワードネットワークに置き換えることで,トークン間の関係を表現しやすくする手法を提案する。この研究は、様々なアプリケーションにわたるトランスフォーマーモデルの予測能力を高める効果的な手段として、ニューラルアテンションを確立する。
論文参考訳（メタデータ） (2025-02-24T14:39:40Z)
Which Attention Heads Matter for In-Context Learning? [41.048579134842285]
大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示す。関連するトークンを見つけてコピーする誘導ヘッドと、ICLタスクの潜在エンコーディングを計算する関数ベクトル(FV)ヘッドの2つの異なるメカニズムが提案されている。誘導頭部とFV頭部を12言語モデルで検討・比較する。
論文参考訳（メタデータ） (2025-02-19T12:25:02Z)
Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。 LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。 LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Tensor Product Attention Is All You Need [53.69820973900921]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。 TPAは、メモリ効率とともに改善されたモデル品質を実現する。 TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるProduct Attention Transformer(T6)を紹介する。
論文参考訳（メタデータ） (2025-01-11T03:37:10Z)
Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2024-10-29T01:12:50Z)
A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。 Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文参考訳（メタデータ） (2024-06-19T19:11:22Z)
Boosting Vision-Language Models with Transduction [12.281505126587048]
本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。 TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
論文参考訳（メタデータ） (2024-06-03T23:09:30Z)
DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。 DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文参考訳（メタデータ） (2024-02-06T11:10:35Z)
Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。 LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文参考訳（メタデータ） (2024-01-11T08:40:35Z)
Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文参考訳（メタデータ） (2023-12-28T15:02:03Z)
Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文参考訳（メタデータ） (2023-10-11T09:55:46Z)
Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文参考訳（メタデータ） (2023-03-02T05:21:18Z)
In-context Learning and Induction Heads [5.123049926855312]
インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
論文参考訳（メタデータ） (2022-09-24T00:43:19Z)
Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文参考訳（メタデータ） (2020-02-17T16:16:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。