論文の概要: EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2601.03725v1
- Date: Wed, 07 Jan 2026 09:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.387589
- Title: EDCO: Dynamic Curriculum Orchestration for Domain-specific Large Language Model Fine-tuning
- Title(参考訳): EDCO:ドメイン固有の大規模言語モデルファインチューニングのための動的カリキュラムオーケストレーション
- Authors: Jing-Cheng Pang, Liu Sun, Chang Zhou, Xian Tang, Haichuan Ma, Kun Jiang, Jianlong Wang, Kai Zhang, Sijie Wu, Haoran Cai, Chenwei Wu, Xubin Li, Xin Chen,
- Abstract要約: ドメイン固有大言語モデル(LLM)は、応用AIの大幅な進歩を表している。
LLMファインチューニングの既存の方法のほとんどは、トレーニング前に設計された静的なカリキュラムに依存している。
本稿では,推論エントロピーと動的カリキュラムオーケストレーションという,2つの主要な概念に基づく新しいフレームワークであるEDCOを提案する。
- 参考スコア(独自算出の注目度): 33.73524745836628
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Domain-specific large language models (LLMs), typically developed by fine-tuning a pre-trained general-purpose LLM on specialized datasets, represent a significant advancement in applied AI. A common strategy in LLM fine-tuning is curriculum learning, which pre-orders training samples based on metrics like difficulty to improve learning efficiency compared to a random sampling strategy. However, most existing methods for LLM fine-tuning rely on a static curriculum, designed prior to training, which lacks adaptability to the model's evolving needs during fine-tuning. To address this, we propose EDCO, a novel framework based on two key concepts: inference entropy and dynamic curriculum orchestration. Inspired by recent findings that maintaining high answer entropy benefits long-term reasoning gains, EDCO prioritizes samples with high inference entropy in a continuously adapted curriculum. EDCO integrates three core components: an efficient entropy estimator that uses prefix tokens to approximate full-sequence entropy, an entropy-based curriculum generator that selects data points with the highest inference entropy, and an LLM trainer that optimizes the model on the selected curriculum. Comprehensive experiments in communication, medicine and law domains, EDCO outperforms traditional curriculum strategies for fine-tuning Qwen3-4B and Llama3.2-3B models under supervised and reinforcement learning settings. Furthermore, the proposed efficient entropy estimation reduces computational time by 83.5% while maintaining high accuracy.
- Abstract(参考訳): ドメイン固有大言語モデル(LLM)は、通常、特定のデータセット上で訓練済みの汎用LLMを微調整することによって開発され、応用AIの大幅な進歩を示している。
LLMファインチューニングにおける一般的な戦略はカリキュラム学習であり、ランダムサンプリング戦略と比較して学習効率を向上させるのが困難であるようなメトリクスに基づいてトレーニングサンプルを事前注文する。
しかし、LLMファインチューニングの既存の方法のほとんどは、トレーニング前に設計された静的カリキュラムに依存しており、微調整中にモデルの進化するニーズへの適応性に欠ける。
そこで本研究では,推論エントロピーと動的カリキュラムオーケストレーションという,2つの重要な概念に基づく新しいフレームワークであるEDCOを提案する。
EDCOは、高答えエントロピーの維持が長期的な推論の利益をもたらすという最近の知見に触発され、継続的に適応されたカリキュラムにおいて、高い推論エントロピーを持つサンプルを優先する。
EDCOは、プレフィックストークンを用いて全列エントロピーを近似する効率的なエントロピー推定器、最も高い推論エントロピーを持つデータポイントを選択するエントロピーベースのカリキュラムジェネレータ、選択したカリキュラム上でモデルを最適化するLLMトレーナーの3つのコアコンポーネントを統合している。
コミュニケーション、医学、法分野の総合的な実験において、EDCOは、教師付きおよび強化学習環境下でのQwen3-4BおよびLlama3.2-3Bモデルの微調整のための伝統的なカリキュラム戦略より優れている。
さらに,提案した効率的なエントロピー推定により,高精度を維持しつつ計算時間を83.5%削減する。
関連論文リスト
- Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning [30.889495810312624]
本稿では,意味レベルとトークンレベルの両方でエントロピー信号を活用して推論を改善する,効率的な強化学習フレームワークを提案する。
データ構造とアルゴリズム設計を協調的に最適化することにより,エントロピー崩壊を効果的に軽減し,推論を強化する。
論文 参考訳(メタデータ) (2025-12-04T01:09:17Z) - Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。
モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。
特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文 参考訳(メタデータ) (2025-07-24T01:09:25Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - P3: A Policy-Driven, Pace-Adaptive, and Diversity-Promoted Framework for data pruning in LLM Training [22.61313628957683]
本稿では、反復データプルーニングによるタスク固有の微調整プロセスの最適化を目的とした適応型フレームワークであるP3を紹介する。
P3は、政策駆動型困難度測定、ペース適応選択、多様性促進の3つの主要な構成要素で構成されている。
我々は,従来のデータプルーニング手法に対して,P3を推論シナリオであるAPPSとMATHで検証し,大幅な改善を示した。
論文 参考訳(メタデータ) (2024-08-10T12:44:49Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Long-Tail Learning with Foundation Model: Heavy Fine-Tuning Hurts [42.693469918949006]
本稿では,重度微調整がテールクラスの性能劣化の原因となる可能性を明らかにする。
我々は,高速な予測とコンパクトなモデルを実現することを目的として,低複雑さかつ高精度なロングテール学習アルゴリズムLIFTを開発した。
論文 参考訳(メタデータ) (2023-09-18T17:50:56Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。