論文の概要: Information Entropy Invariance: Enhancing Length Extrapolation in Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2501.08570v1
- Date: Wed, 15 Jan 2025 04:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:46.801442
- Title: Information Entropy Invariance: Enhancing Length Extrapolation in Attention Mechanisms
- Title(参考訳): 情報エントロピー不変性:注意機構における長さ外挿の強化
- Authors: Kewei Li, Yanwen Kong, Yiping Xu, Lan Huang, Ruochi Zhang, Fengfeng Zhou,
- Abstract要約: 長さ外挿量を高めるために,2つの新しいスケール温度を導入する。
まず、InfoScaleはドット製品に注意を向ける訓練不要の手法である。
第2に,スケーリング(CosScale)がコサイン注意に与える影響を理論的に分析する。
- 参考スコア(独自算出の注目度): 2.4482926929280935
- License:
- Abstract: Improving the length extrapolation capabilities of Large Language Models (LLMs) remains a critical challenge in natural language processing. Many recent efforts have focused on modifying the scaled dot-product attention mechanism, and often introduce scaled temperatures without rigorous theoretical justification. To fill this gap, we introduce a novel approach based on information entropy invariance. We propose two new scaled temperatures to enhance length extrapolation. First, a training-free method InfoScale is designed for dot-product attention, and preserves focus on original tokens during length extrapolation by ensuring information entropy remains consistent. Second, we theoretically analyze the impact of scaling (CosScale) on cosine attention. Experimental data demonstrates that combining InfoScale and CosScale achieves state-of-the-art performance on the GAU-{\alpha} model with a context window extended to 64 times the training length, and outperforms seven existing methods. Our analysis reveals that significantly increasing CosScale approximates windowed attention, and highlights the significance of attention score dilution as a key challenge in long-range context handling. The code and data are available at https://github.com/HT-NEKO/InfoScale.
- Abstract(参考訳): 大規模言語モデル(LLM)の長さ外挿能力の改善は、自然言語処理において重要な課題である。
近年の多くの研究は、スケールしたドット積の注意機構の変更に重点を置いており、厳密な理論的な正当化なしにスケールした温度を導入することも多い。
このギャップを埋めるために,情報エントロピー不変性に基づく新しいアプローチを導入する。
長さ外挿量を高めるための2つの新しいスケール温度を提案する。
第一に、InfoScaleはドット製品注意のために設計されており、情報エントロピーの一貫性を保ちながら、長さ外挿中のオリジナルのトークンに焦点を合わせている。
第2に,スケーリング(CosScale)がコサイン注意に与える影響を理論的に分析する。
実験データによると、InfoScaleとCosScaleを組み合わせることで、GAU-{\alpha}モデルの最先端のパフォーマンスと、トレーニング長の64倍まで拡張されたコンテキストウインドウが達成され、7つの既存メソッドを上回っている。
分析の結果,CosScaleは窓面の注目度を著しく増加させ,長期コンテキスト処理における重要な課題として注目スコアの希釈の重要性を強調した。
コードとデータはhttps://github.com/HT-NEKO/InfoScale.comで公開されている。
関連論文リスト
- Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps [48.16416920913577]
拡散モデルの予測時間スケーリングの挙動を,デノナイジングステップの増大を超えて検討する。
拡散サンプリングプロセスにおいて,より優れたノイズを特定することを目的とした探索問題を考察する。
その結果, 推定時間計算の増加は, 拡散モデルにより生成された試料の品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-16T18:30:37Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - REMEDI: Corrective Transformations for Improved Neural Entropy Estimation [0.7488108981865708]
我々は微分エントロピーの効率的かつ正確な推定のために$textttREMEDI$を紹介した。
提案手法は,幅広い推定課題にまたがる改善を実証する。
自然に情報理論による教師あり学習モデルに拡張することができる。
論文 参考訳(メタデータ) (2024-02-08T14:47:37Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - A learning algorithm with emergent scaling behavior for classifying
phase transitions [0.0]
本研究では,測定データから重要な現象を研究するための教師付き学習アルゴリズムを提案する。
We test it on the transverse field Ising chain and q=6 Potts model。
本アルゴリズムは, 系の熱力学的位相を正確に同定し, 射影測定からスケーリング挙動を抽出する。
論文 参考訳(メタデータ) (2021-03-29T18:05:27Z) - Extensive Studies of the Neutron Star Equation of State from the Deep
Learning Inference with the Observational Data Augmentation [0.0]
質量と半径の実際の観測データを用いて、状態の中性子星方程式(EoS)の深層学習推論について議論する。
観測に不確実性を組み込む深層学習法では,観測の不確実性に対応する雑音変動を伴うトレーニングデータを増強する。
このデータ拡張は,ニューラルネットワークアーキテクチャをチューニングすることなく,過剰フィッティングを回避するための有用な手法である可能性が示唆された。
論文 参考訳(メタデータ) (2021-01-20T14:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。