論文の概要: ETT: Expanding the Long Context Understanding Capability of LLMs at Test-Time
- arxiv url: http://arxiv.org/abs/2507.06313v1
- Date: Tue, 08 Jul 2025 18:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.354213
- Title: ETT: Expanding the Long Context Understanding Capability of LLMs at Test-Time
- Title(参考訳): ETT: LLMの長期理解能力をテスト時に拡張する
- Authors: Kiarash Zahirnia, Zahra Golpayegani, Walid Ahmad, Yang Liu,
- Abstract要約: ourmodelacronym(Extend at Test-Time)は、短いコンテキストのコンテクスト長を変換子ベースの言語モデルに拡張する手法である。
GPT-LargeとPhi-2のコンテキスト長を32倍に拡張し,LongBench上のETTを評価する。
- 参考スコア(独自算出の注目度): 5.554829574749047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based Language Models' computation and memory overhead increase quadratically as a function of sequence length. The quadratic cost poses challenges when employing LLMs for processing long sequences. In this work, we introduce \ourmodelacronym~(Extend at Test-Time), method for extending the context length of short context Transformer-based LLMs, with constant memory requirement and linear computation overhead. ETT enable the extension of the context length at test-time by efficient fine-tuning the model's parameters on the input context, chunked into overlapping small subsequences. We evaluate ETT on LongBench by extending the context length of GPT-Large and Phi-2 up to 32 times, increasing from 1k to 32k tokens. This results in up to a 30 percent improvement in the model's accuracy. We also study how context can be stored in LLM's weights effectively and efficiently. Through a detailed ablation study, we examine which Transformer modules are most beneficial to fine-tune at test-time. Interestingly, we find that fine-tuning the second layer of the FFNs is more effective than full fine-tuning, leading to a further improvement in the models' accuracy.
- Abstract(参考訳): トランスフォーマーに基づく言語モデルの計算とメモリオーバーヘッドは、シーケンス長の関数として2次的に増加する。
2次コストは、長いシーケンスの処理にLLMを使用する場合の課題である。
本研究では, メモリの一定要件と線形計算オーバヘッドを伴って, 短時間の文脈長を拡張できる<ourmodelacronym~(Extend at Test-Time)を導入する。
ETTは、入力コンテキスト上でモデルのパラメータを効率的に微調整し、重複する小さなサブシーケンスにチャンクすることで、テスト時のコンテキスト長の拡張を可能にする。
GPT-LargeとPhi-2のコンテキスト長を32倍に拡張し,LongBench上のETTを評価する。
これにより、モデルの精度が最大30%向上する。
また,LLMの重みにコンテキストを効率的に保存する方法についても検討した。
詳細なアブレーション研究を通じて,Transformerモジュールがテスト時の微調整に最も有用かを検討する。
興味深いことに、FFNsの第2層の微調整は完全な微調整よりも効果的であることが分かり、モデルの精度がさらに向上する。
関連論文リスト
- LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Giraffe: Adventures in Expanding Context Lengths in LLMs [7.8327063299618]
線形スケーリングは文脈長を拡張するのに最適であることを示す。
また,将来的な外挿機能についても検討した。
この領域のさらなる研究を支援するために,13Bパラメータ長コンテキストモデルを新たに3つリリースする。
論文 参考訳(メタデータ) (2023-08-21T17:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。