Fugu-MT 論文翻訳(概要): Charting Empirical Laws for LLM Fine-Tuning in Scientific Multi-Discipline Learning

論文の概要: Charting Empirical Laws for LLM Fine-Tuning in Scientific Multi-Discipline Learning

arxiv url: http://arxiv.org/abs/2602.11215v1
Date: Wed, 11 Feb 2026 09:04:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-13 21:07:25.456629
Title: Charting Empirical Laws for LLM Fine-Tuning in Scientific Multi-Discipline Learning
Title（参考訳）: 理科多科学習におけるLCMファインチューニングの実証法則のチャート化
Authors: Lintao Wang, Zhuqiang Lu, Yilin Zhu, Kun Hu, Zhenfei Yin, Shixiang Tang, Zhiyong Wang, Wanli Ouyang, Xinzhu Ma,
Abstract要約: 本稿では,多分野の大規模言語モデル(LLM)の微調整に関する最初の体系的研究について述べる。完全微調整, LoRA, LoRA-MoE, LoRAの学習パターンを解析した。本研究は, 単科学習よりも多科学習がかなり多様であることを示す。
参考スコア（独自算出の注目度）: 74.77190207677863
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) have achieved strong performance through fine-tuning within individual scientific domains, their learning dynamics in multi-disciplinary contexts remains poorly understood, despite the promise of improved generalization and broader applicability through cross-domain knowledge synergy. In this work, we present the first systematic study of multi-disciplinary LLM fine-tuning, constructing a five-discipline corpus and analyzing learning patterns of full fine-tuning, LoRA, LoRA-MoE, and LoRA compositions. Particularly, our study shows that multi-disciplinary learning is substantially more variable than single-discipline training and distills four consistent empirical laws: (1) Balance-then-Diversity: low-resource disciplines degrade performance unless mitigated via diversity-aware upsampling; (2) Merge-then-Align: restoring instruction-following ability is critical for cross-discipline synergy; (3) Optimize-then-Scale: parameter scaling offers limited gains without prior design optimization; and (4) Share-then-Specialize: asymmetric LoRA-MoE yields robust gains with minimal trainable parameters via shared low-rank projection. Together, these laws form a practical recipe for principled multi-discipline fine-tuning and provide actionable guidance for developing generalizable scientific LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、個々の科学領域内での微調整によって高いパフォーマンスを達成しているが、多分野の文脈における学習のダイナミクスは、一般化の改善とクロスドメイン知識の相乗効果による適用性の向上が約束されているにもかかわらず、いまだに理解されていない。本研究は,多分野のLLMファインチューニングに関する最初の体系的研究であり,5分野のコーパスを構築し,完全なファインチューニング,LoRA,LoRA-MoE,LoRAの学習パターンを解析する。特に,本研究では,複数学際学習が単一学際学習よりもほぼ可変であることを示し,(1)バランス-then-Diversity:低リソース規律多様性を意識せずに性能を低下させること,(2)マージ-then-Align: 命令追従能力の回復はクロス学際シナジーにとって重要であること,(3)パラメータスケーリングは事前の設計最適化なしで限られた利得を提供すること,(4)共有-then-Specize: 対称LoRA-MoEは共有低ランク投射による最小の訓練可能なパラメータによる堅牢な利得をもたらすこと,の4つの一貫した経験則を抽出した。これらの法則は、原則化された多分野の微調整のための実践的なレシピを形成し、一般化可能な科学LLMを開発するための実用的なガイダンスを提供する。

関連論文リスト

ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文参考訳（メタデータ） (2026-01-29T16:04:59Z)
RLIE: Rule Generation with Logistic Regression, Iterative Refinement, and Evaluation for Large Language Models [13.343944091570386]
大規模言語モデル(LLM)は、従来のルール学習において事前定義された述語空間の必要性を脇取りして、自然言語でルールを提案することができる。本稿では,LLMと確率的モデリングを統合し,重み付きルールの集合を学習する統一フレームワークRLIEを提案する。学習した重みでルールを直接適用すると性能が向上する一方、ルール、重み、ロジスティックモデルの出力は驚くほど精度が低下する。
論文参考訳（メタデータ） (2025-10-22T15:50:04Z)
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。 PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文参考訳（メタデータ） (2025-07-30T12:23:21Z)
Can One Domain Help Others? A Data-Centric Study on Multi-Domain Reasoning via Reinforcement Learning [32.665418383317224]
本稿では,RLVRフレームワーク内でのマルチドメイン推論を体系的に検討する。数学的推論、コード生成、論理パズル解という3つの主要な領域に注目します。私たちの結果は、ドメイン間相互作用を管理するダイナミクスに関する重要な洞察を与えます。
論文参考訳（メタデータ） (2025-07-23T13:51:04Z)
Understanding Large Language Models' Ability on Interdisciplinary Research [27.539601507270575]
大規模言語モデル(LLM)は、科学的発見において強力なツールと協力者である。学際研究におけるLLMのアイデア開発能力を評価する専用ベンチマークの欠如は、その強みと限界を完全に理解する上で重要な障壁となっている。 IDRBenchは、専門家アノテートされたデータセットと、LLMの機能を評価するために調整された一連のタスクを特徴とする先駆的なベンチマークである。
論文参考訳（メタデータ） (2025-07-21T15:43:05Z)
Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文参考訳（メタデータ） (2025-07-20T01:50:16Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning [6.675088737484839]
本稿では,効率と柔軟性を向上させるために,複数のモデルを個別に微調整するEnsemble Multi-Objective RL (EMORL) フレームワークを提案する。提案手法は,複数の対象からコンテキスト情報を組み込んで,個々のモデルの隠れた状態を初めて集約する手法である。 PAIR と Psych8k データセットの実験において,EMORL の既存のベースラインに対する利点を示す。
論文参考訳（メタデータ） (2025-05-05T11:30:46Z)
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach [15.960271016276447]
8大言語モデル(LLM)における数学的推論能力の体系的評価について述べる。 DeepSeek-R1は、ほとんどのドメインでo1と競合し、MMLU Formal Logicベンチマークで最高精度を達成する。アーキテクチャの選択、トレーニングパラダイム、最適化戦略が、推論性能の変動にどのように貢献するかを考察する。
論文参考訳（メタデータ） (2025-03-13T17:23:45Z)
A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文参考訳（メタデータ） (2025-03-08T05:41:42Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Exploring Accuracy-Fairness Trade-off in Large Language Models [10.5817207739373]
本研究では,大規模言語モデルの拡張において,精度と公平性を調和させることの難しさについて検討する。 1つの計量の過度な最適化は、必然的にもう1つの計量を著しく劣化させる。本研究は,多目的進化学習(MOEL)手法が,この課題に対処するための有望な方法であることを明らかにした。
論文参考訳（メタデータ） (2024-11-21T04:40:35Z)
MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
MTL能力を大幅に向上させながら、低ランク適応の利点を保ちつつ、MTL-LoRAを提案する。 MTL-LoRAは、タスク固有の情報を識別し、共有知識をキャプチャするタスク適応パラメータを追加することで、LoRAを強化する。このアプローチにより、事前訓練されたモデルは、限られた数のトレーニング可能なパラメータで、異なるターゲットドメインに共同で適応することができる。
論文参考訳（メタデータ） (2024-10-12T08:32:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。