論文の概要: DCIS: Efficient Length Extrapolation of LLMs via Divide-and-Conquer Scaling Factor Search
- arxiv url: http://arxiv.org/abs/2412.18811v1
- Date: Wed, 25 Dec 2024 07:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:12.064993
- Title: DCIS: Efficient Length Extrapolation of LLMs via Divide-and-Conquer Scaling Factor Search
- Title(参考訳): DCIS:ディバイド・アンド・コンカレントスケーリング因子探索によるLCMの効率的な長さ外挿
- Authors: Lei Yang, Shaoyang Xu, Deyi Xiong,
- Abstract要約: トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は通常、トレーニングコストが高いため、コンテキスト長が制限される。
最近の進歩は、RoPEのスケーリング係数と微調整を調整してコンテキストウィンドウを拡張している。
本稿では,従来のスケーリング要素探索から切り離された,RoPEに基づくファインチューニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.15279832938021
- License:
- Abstract: Large language models (LLMs) based on the Transformer architecture usually have their context length limited due to the high training cost. Recent advancements extend the context window by adjusting the scaling factors of RoPE and fine-tuning. However, suboptimal initialization of these factors results in increased fine-tuning costs and reduced performance at target length. To address these challenges, we propose an innovative RoPE-based fine-tuning framework that diverges from conventional scaling factors search. Specifically, we present a Divide-and-Conquer Incremental Search (DCIS) algorithm that strategically determines the better scaling factors. Further fine-tuning with the identified scaling factors effectively extends the context window of LLMs. Empirical results demonstrate that our methodology not only mitigates performance decay at extended target lengths but also allows the model to fine-tune on short contexts and generalize to long contexts, thereby reducing the cost of fine-tuning. The scaling factors obtained through DCIS can even perform effectively without fine-tuning. Further analysis of the search space reveals that DCIS achieves twice the search efficiency compared to other methods. We also examine the impact of the non-strictly increasing scaling factors utilized in DCIS and evaluate the general capabilities of LLMs across various context lengths.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は通常、トレーニングコストが高いため、コンテキスト長が制限される。
最近の進歩は、RoPEのスケーリング係数と微調整を調整してコンテキストウィンドウを拡張している。
しかし,これらの因子の最適初期化により微調整コストが増大し,目標距離での性能が低下する。
これらの課題に対処するために,従来のスケールファクター検索から切り離された,RoPEベースのファインチューニングフレームワークを提案する。
具体的には、より優れたスケーリング要因を戦略的に決定するDivide-and-Conquer Incremental Search (DCIS)アルゴリズムを提案する。
LLMのコンテキストウィンドウを効果的に拡張する。
実験結果から,提案手法は目標距離を延ばした性能低下を緩和するだけでなく,短いコンテキストで微調整し,長いコンテキストに一般化し,微調整のコストを低減できることを示した。
DCISによって得られたスケーリング要因は、微調整なしで効果的に実行できる。
探索空間のさらなる解析により,DCISは他の手法に比べて2倍の探索効率が得られることが明らかになった。
また,DCISにおける非制限的に増大するスケーリング要因の影響について検討し,LLMの様々な文脈における汎用性について検討した。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z) - Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
本研究では,検索拡張生成(RAG)のための推論スケーリングについて検討する。
インコンテキスト学習と反復的プロンプトという,2つの推論スケーリング戦略に注目します。
我々は、長期コンテキストの大規模言語モデル上での推論計算のスケーリングが、ベンチマークデータセットで最大58.9%のゲインを達成することを実証した。
論文 参考訳(メタデータ) (2024-10-06T03:42:15Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。