論文の概要: DCIS: Efficient Length Extrapolation of LLMs via Divide-and-Conquer Scaling Factor Search
- arxiv url: http://arxiv.org/abs/2412.18811v1
- Date: Wed, 25 Dec 2024 07:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:12.064993
- Title: DCIS: Efficient Length Extrapolation of LLMs via Divide-and-Conquer Scaling Factor Search
- Title(参考訳): DCIS:ディバイド・アンド・コンカレントスケーリング因子探索によるLCMの効率的な長さ外挿
- Authors: Lei Yang, Shaoyang Xu, Deyi Xiong,
- Abstract要約: トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は通常、トレーニングコストが高いため、コンテキスト長が制限される。
最近の進歩は、RoPEのスケーリング係数と微調整を調整してコンテキストウィンドウを拡張している。
本稿では,従来のスケーリング要素探索から切り離された,RoPEに基づくファインチューニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.15279832938021
- License:
- Abstract: Large language models (LLMs) based on the Transformer architecture usually have their context length limited due to the high training cost. Recent advancements extend the context window by adjusting the scaling factors of RoPE and fine-tuning. However, suboptimal initialization of these factors results in increased fine-tuning costs and reduced performance at target length. To address these challenges, we propose an innovative RoPE-based fine-tuning framework that diverges from conventional scaling factors search. Specifically, we present a Divide-and-Conquer Incremental Search (DCIS) algorithm that strategically determines the better scaling factors. Further fine-tuning with the identified scaling factors effectively extends the context window of LLMs. Empirical results demonstrate that our methodology not only mitigates performance decay at extended target lengths but also allows the model to fine-tune on short contexts and generalize to long contexts, thereby reducing the cost of fine-tuning. The scaling factors obtained through DCIS can even perform effectively without fine-tuning. Further analysis of the search space reveals that DCIS achieves twice the search efficiency compared to other methods. We also examine the impact of the non-strictly increasing scaling factors utilized in DCIS and evaluate the general capabilities of LLMs across various context lengths.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は通常、トレーニングコストが高いため、コンテキスト長が制限される。
最近の進歩は、RoPEのスケーリング係数と微調整を調整してコンテキストウィンドウを拡張している。
しかし,これらの因子の最適初期化により微調整コストが増大し,目標距離での性能が低下する。
これらの課題に対処するために,従来のスケールファクター検索から切り離された,RoPEベースのファインチューニングフレームワークを提案する。
具体的には、より優れたスケーリング要因を戦略的に決定するDivide-and-Conquer Incremental Search (DCIS)アルゴリズムを提案する。
LLMのコンテキストウィンドウを効果的に拡張する。
実験結果から,提案手法は目標距離を延ばした性能低下を緩和するだけでなく,短いコンテキストで微調整し,長いコンテキストに一般化し,微調整のコストを低減できることを示した。
DCISによって得られたスケーリング要因は、微調整なしで効果的に実行できる。
探索空間のさらなる解析により,DCISは他の手法に比べて2倍の探索効率が得られることが明らかになった。
また,DCISにおける非制限的に増大するスケーリング要因の影響について検討し,LLMの様々な文脈における汎用性について検討した。
関連論文リスト
- Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。
これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。
オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T06:48:38Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG [36.754491649652664]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)に外部の知識ソースを利用する権限を与える。
本稿では, 回収した「ハードネガティブ」の有害な影響について考察する。
これを緩和し、長文LLMベースのRAGの堅牢性を高めるために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:30:07Z) - Inference Scaling for Long-Context Retrieval Augmented Generation [37.15479223789199]
本研究では,検索拡張生成(RAG)のための推論スケーリングについて検討する。
インコンテキスト学習と反復的プロンプトという,2つの推論スケーリング戦略に注目します。
我々は、長期コンテキストの大規模言語モデル上での推論計算のスケーリングが、ベンチマークデータセットで最大58.9%のゲインを達成することを実証した。
論文 参考訳(メタデータ) (2024-10-06T03:42:15Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - FactorizeNet: Progressive Depth Factorization for Efficient Network
Architecture Exploration Under Quantization Constraints [93.4221402881609]
量子化制約下での効率的なCNNアーキテクチャ探索のためのプログレッシブ・ディープ・ファクタライズ・ストラテジーを導入する。
アルゴリズムによって深度分解の粒度を漸進的に増大させることで,層状分布の微細で低レベルな解析が可能となる。
このようなプログレッシブな深度分解戦略は、最適深度分解マクロ構造設計の効率的な同定を可能にする。
論文 参考訳(メタデータ) (2020-11-30T07:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。