論文の概要: Information Entropy Invariance: Enhancing Length Extrapolation in Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2501.08570v2
- Date: Mon, 20 Jan 2025 09:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:27.103839
- Title: Information Entropy Invariance: Enhancing Length Extrapolation in Attention Mechanisms
- Title(参考訳): 情報エントロピー不変性:注意機構における長さ外挿の強化
- Authors: Kewei Li, Yanwen Kong, Yiping Xu, Jianlin Su, Lan Huang, Ruochi Zhang, Fengfeng Zhou,
- Abstract要約: 長さ外挿量を高めるために,2つの新しいスケール温度を導入する。
まず、InfoScaleはドット製品に注意を向ける訓練不要の手法である。
第2に,スケーリング(CosScale)がコサイン注意に与える影響を理論的に分析する。
- 参考スコア(独自算出の注目度): 4.126054320109016
- License:
- Abstract: Improving the length extrapolation capabilities of Large Language Models (LLMs) remains a critical challenge in natural language processing. Many recent efforts have focused on modifying the scaled dot-product attention mechanism, and often introduce scaled temperatures without rigorous theoretical justification. To fill this gap, we introduce a novel approach based on information entropy invariance. We propose two new scaled temperatures to enhance length extrapolation. First, a training-free method InfoScale is designed for dot-product attention, and preserves focus on original tokens during length extrapolation by ensuring information entropy remains consistent. Second, we theoretically analyze the impact of scaling (CosScale) on cosine attention. Experimental data demonstrates that combining InfoScale and CosScale achieves state-of-the-art performance on the GAU-{\alpha} model with a context window extended to 64 times the training length, and outperforms seven existing methods. Our analysis reveals that significantly increasing CosScale approximates windowed attention, and highlights the significance of attention score dilution as a key challenge in long-range context handling. The code and data are available at https://github.com/HT-NEKO/InfoScale.
- Abstract(参考訳): 大規模言語モデル(LLM)の長さ外挿能力の改善は、自然言語処理において重要な課題である。
近年の多くの研究は、スケールしたドット積の注意機構の変更に重点を置いており、厳密な理論的な正当化なしにスケールした温度を導入することも多い。
このギャップを埋めるために,情報エントロピー不変性に基づく新しいアプローチを導入する。
長さ外挿量を高めるための2つの新しいスケール温度を提案する。
第一に、InfoScaleはドット製品注意のために設計されており、情報エントロピーの一貫性を保ちながら、長さ外挿中のオリジナルのトークンに焦点を合わせている。
第2に,スケーリング(CosScale)がコサイン注意に与える影響を理論的に分析する。
実験データによると、InfoScaleとCosScaleを組み合わせることで、GAU-{\alpha}モデルの最先端のパフォーマンスと、トレーニング長の64倍まで拡張されたコンテキストウインドウが達成され、7つの既存メソッドを上回っている。
分析の結果,CosScaleは窓面の注目度を著しく増加させ,長期コンテキスト処理における重要な課題として注目スコアの希釈の重要性を強調した。
コードとデータはhttps://github.com/HT-NEKO/InfoScale.comで公開されている。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - FiLM: Frequency improved Legendre Memory Model for Long-term Time Series
Forecasting [22.821606402558707]
textbfFrequency textbfimproved textbfLegendre textbfMemory model(bf FiLM)を開発した。
実験により,提案したFiLMは最先端モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-05-18T12:37:54Z) - A learning algorithm with emergent scaling behavior for classifying
phase transitions [0.0]
本研究では,測定データから重要な現象を研究するための教師付き学習アルゴリズムを提案する。
We test it on the transverse field Ising chain and q=6 Potts model。
本アルゴリズムは, 系の熱力学的位相を正確に同定し, 射影測定からスケーリング挙動を抽出する。
論文 参考訳(メタデータ) (2021-03-29T18:05:27Z) - Extensive Studies of the Neutron Star Equation of State from the Deep
Learning Inference with the Observational Data Augmentation [0.0]
質量と半径の実際の観測データを用いて、状態の中性子星方程式(EoS)の深層学習推論について議論する。
観測に不確実性を組み込む深層学習法では,観測の不確実性に対応する雑音変動を伴うトレーニングデータを増強する。
このデータ拡張は,ニューラルネットワークアーキテクチャをチューニングすることなく,過剰フィッティングを回避するための有用な手法である可能性が示唆された。
論文 参考訳(メタデータ) (2021-01-20T14:27:12Z) - Focus of Attention Improves Information Transfer in Visual Features [80.22965663534556]
本稿では,真のオンライン環境下での視覚情報伝達のための教師なし学習に焦点を当てた。
エントロピー項の計算は、エントロピー項のオンライン推定を行う時間的プロセスによって行われる。
入力確率分布をよりよく構成するために,人間のような注目モデルを用いる。
論文 参考訳(メタデータ) (2020-06-16T15:07:25Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。