論文の概要: A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)
- arxiv url: http://arxiv.org/abs/2502.02659v2
- Date: Fri, 30 May 2025 05:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:33.745864
- Title: A Training-Free Length Extrapolation Approach for LLMs: Greedy Attention Logit Interpolation (GALI)
- Title(参考訳): LLMのトレーニング不要長外挿法:Greedy Attention Logit Interpolation (GALI)
- Authors: Yan Li, Tianyi Zhang, Zechuan Li, Soyeon Caren Han,
- Abstract要約: Greedy Attention Logit Interpolation (GALI) は、入力長固有のチューニングを必要とせずに長さ外挿を改善する訓練不要の手法である。
Galiは入力長固有のチューニングを必要とせずに、幅広い長文タスクに対して安定かつ優れたパフォーマンスを実現する。
Galiは、大規模言語モデルにおけるより堅牢で一般化可能な長文処理への一歩である。
- 参考スコア(独自算出の注目度): 13.581522432715952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based Large Language Models (LLMs) struggle with inputs exceeding their training context window due to positional out-of-distribution (O.O.D.) issues that disrupt attention. Existing solutions, including fine-tuning and training-free methods, face challenges like inefficiency, redundant interpolation, logit outliers, or loss of local positional information. We propose Greedy Attention Logit Interpolation (GALI), a training-free method that improves length extrapolation by greedily reusing pretrained positional intervals and interpolating attention logit to eliminate outliers. GALI achieves stable and superior performance across a wide range of long-context tasks without requiring input-length-specific tuning. Our analysis further reveals that LLMs interpret positional intervals unevenly and that restricting interpolation to narrower ranges improves performance, even on short-context tasks. GALI represents a step toward more robust and generalizable long-text processing in LLMs. Our implementation of GALI, along with the experiments from our paper, is open-sourced at https://github.com/adlnlp/Gali.
- Abstract(参考訳): Transformer-based Large Language Models (LLM) は、注意を損なう位置分布(O.O.D.)の問題により、トレーニングコンテキストウインドウを超える入力に苦しむ。
ファインチューニングやトレーニングなしの手法を含む既存のソリューションでは、非効率性、冗長な補間、ロジット・アウトレイア、ローカルな位置情報の喪失といった課題に直面している。
本稿では,事前学習した位置間隔をグリードリユースし,アテンションロジットを補間して外乱を除去し,長さ外挿を改善する訓練自由度法であるGreedy Attention Logit Interpolation (GALI)を提案する。
GALIは入力長固有のチューニングを必要とせずに、幅広い長文タスクに対して安定かつ優れたパフォーマンスを実現する。
さらに,LLMが位置間隔を不均一に解釈し,より狭い範囲での補間を制限することで,短文タスクにおいても性能が向上することを明らかにした。
GALIはLLMにおけるより堅牢で一般化可能な長文処理への一歩である。
GALIの実装と論文の実験はhttps://github.com/adlnlp/Gali.comで公開されている。
関連論文リスト
- Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Aligning Large Language Models with Representation Editing: A Control Perspective [38.71496554018039]
人間の目的に合わせて微調整された大規模言語モデル(LLM)は、現実世界のアプリケーションには不可欠である。
プロンプトやガイドデコードといったテスト時のアライメント技術は、基礎となるモデルを変更しない。
表現編集によるLLMの整合性を提案する。
論文 参考訳(メタデータ) (2024-06-10T01:21:31Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Jointly Optimizing Dataset Size and Local Updates in Heterogeneous
Mobile Edge Learning [11.191719032853527]
本稿では、リソース制約のある無線エッジを介して接続された学習者を対象に訓練された分散機械学習(ML)モデルの精度を最大化する。
我々は,各学習者の不均一なコミュニケーションと計算能力を考慮して,ローカル/グローバルな更新数とタスクサイズ割り当てを共同で最適化し,損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-06-12T18:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。