論文の概要: KV Shifting Attention Enhances Language Modeling
- arxiv url: http://arxiv.org/abs/2411.19574v2
- Date: Thu, 05 Dec 2024 12:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 11:19:32.866960
- Title: KV Shifting Attention Enhances Language Modeling
- Title(参考訳): KVシフトアテンションが言語モデリングを強化
- Authors: Mingyu Xu, Wei Cheng, Bingning Wang, Weipeng Chen,
- Abstract要約: 現在の大規模言語モデルは、主に、文脈内学習能力の優れたデコードのみの構造変換器に基づいている。
モデル誘導の能力をより効率的に実装するために、KVシフト注意を提案する。
実験結果から,KVシフト注意が学習誘導ヘッドや言語モデリングに有用であることが示唆された。
- 参考スコア(独自算出の注目度): 10.265219156828907
- License:
- Abstract: The current large language models are mainly based on decode-only structure transformers, which have great in-context learning (ICL) capabilities. It is generally believed that the important foundation of its ICL capability is the induction heads mechanism, which requires at least two layers attention. In order to more efficiently implement the ability of the model's induction, we revisit the induction heads mechanism and proposed a KV shifting attention. We theoretically prove that the KV shifting attention reducing the model's requirements for the depth and width of the induction heads mechanism. Our experimental results demonstrate that KV shifting attention is beneficial to learning induction heads and language modeling, which lead to better performance or faster convergence from toy models to the pre-training models with more than 10 B parameters.
- Abstract(参考訳): 現在の大規模言語モデルは、主に、文脈内学習(ICL)機能を持つデコードのみの構造変換器に基づいている。
ICLの能力の重要な基盤は誘導ヘッド機構であり、少なくとも2層は注意が必要であると一般的に信じられている。
モデルの誘導能力をより効率的に実装するために、誘導ヘッド機構を再検討し、KVシフト注意を提案する。
理論的には、KVシフトアテンションは誘導ヘッド機構の深さと幅に対するモデルの要求を減少させる。
実験の結果,KVシフトの注意は学習誘導ヘッドや言語モデリングに有用であることが示され,玩具モデルから10以上のパラメータを持つ事前学習モデルへのより優れた性能やより高速な収束がもたらされた。
関連論文リスト
- Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - Efficient Machine Translation with a BiLSTM-Attention Approach [0.0]
本稿では,翻訳品質の向上を目的とした新しいSeq2Seqモデルを提案する。
このモデルでは、双方向長短期記憶ネットワーク(Bidirectional Long Short-Term Memory Network, Bi-LSTM)をエンコーダとして使用し、入力シーケンスのコンテキスト情報をキャプチャする。
現在の主流トランスフォーマーモデルと比較して,本モデルはWMT14機械翻訳データセットにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-10-29T01:12:50Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Boosting Vision-Language Models with Transduction [12.281505126587048]
本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。
TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
論文 参考訳(メタデータ) (2024-06-03T23:09:30Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Rethinking Soft Label in Label Distribution Learning Perspective [0.27719338074999533]
初期の畳み込みニューラルネットワーク(CNN)におけるトレーニングの第一の目的は、モデルのより高度な一般化性能である。
CNNトレーニングにおいてラベル分布学習(LDL)を行うことで,モデルの校正が促進されることを示した。
我々はいくつかの可視化と分析を行い、LCLを用いたCNNトレーニングでいくつかの興味深い振る舞いを目撃した。
論文 参考訳(メタデータ) (2023-01-31T06:47:19Z) - In-context Learning and Induction Heads [5.123049926855312]
インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
論文 参考訳(メタデータ) (2022-09-24T00:43:19Z) - Low-Rank Bottleneck in Multi-head Attention Models [74.83235382203604]
現在のアーキテクチャにおけるヘッド数とヘッドサイズの間のスケーリングは、注目ヘッドの低ランクボトルネックを引き起こします。
本稿では,アテンションユニットの頭部サイズを入力シーケンス長に設定し,ヘッド数に依存しないようにすることを提案する。
論文 参考訳(メタデータ) (2020-02-17T16:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。