論文の概要: Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.20162v2
- Date: Sun, 28 Sep 2025 02:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.608183
- Title: Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation
- Title(参考訳): 拡張世代からの強化学習による大規模言語モデルのドメイン知識の埋め込み
- Authors: Chaojun Nie, Jun Zhou, Guanxiang Wang, Shisong Wu, Zichen Wang,
- Abstract要約: 本稿では,RLAG(Reinforcement Learning from Augmented Generation)を提案し,ドメイン知識を大規模言語モデルに組み込む。
提案手法は, サンプリング世代間を反復的に循環し, 計算した報酬によってモデルを最適化する。
医学、法学、天文学、および現在のイベントデータセットにわたる実験結果から、提案手法がベースラインアプローチを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 18.99847259801634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) often exhibit limited performance on domain-specific tasks due to the natural disproportionate representation of specialized information in their training data and the static nature of these datasets. Knowledge scarcity and temporal lag create knowledge gaps for domain applications. While post-training on domain datasets can embed knowledge into models, existing approaches have some limitations. Continual Pre-Training (CPT) treats all tokens in domain documents with equal importance, failing to prioritize critical knowledge points, while supervised fine-tuning (SFT) with question-answer pairs struggles to develop the coherent knowledge structures necessary for complex reasoning tasks. To address these challenges, we propose Reinforcement Learning from Augmented Generation (RLAG). Our approach iteratively cycles between sampling generations and optimizing the model through calculated rewards, effectively embedding critical and contextually coherent domain knowledge. We select generated outputs with the highest log probabilities as the sampling result, then compute three tailored reward metrics to guide the optimization process. To comprehensively evaluate domain expertise, we assess answer accuracy and the rationality of explanations generated for correctly answered questions. Experimental results across medical, legal, astronomy, and current events datasets demonstrate that our proposed method significantly outperforms baseline approaches. Our code and data are open sourced at https://github.com/ChaojunNie/RLAG.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練データにおける特殊情報の自然な不均等な表現とこれらのデータセットの静的な性質のために、ドメイン固有のタスクに対して限られた性能を示すことが多い。
知識不足と時間ラグはドメインアプリケーションの知識ギャップを生み出します。
ドメインデータセットのトレーニング後、モデルに知識を組み込むことができるが、既存のアプローチにはいくつかの制限がある。
CPT(Continuous Pre-Training)は、ドメイン文書内のすべてのトークンを同じ重要性で扱い、重要な知識ポイントの優先順位付けに失敗する一方で、質問応答ペアによる微調整(SFT)は、複雑な推論タスクに必要な一貫性のある知識構造を開発するのに苦労する。
これらの課題に対処するため,我々はRLAG(Reinforcement Learning from Augmented Generation)を提案する。
提案手法は,サンプル生成と計算された報酬によるモデル最適化の間を反復的に循環し,重要かつコンテキストに整合したドメイン知識を効果的に埋め込む。
サンプリング結果として,最大ログ確率で生成した出力を選択し,最適化プロセスを導くために3つの最適化された報酬指標を計算した。
専門分野の専門知識を包括的に評価するために,質問に対する回答精度と説明の合理性を評価する。
医学、法学、天文学、および現在のイベントデータセットにわたる実験結果から、提案手法がベースラインアプローチを著しく上回ることを示す。
コードとデータはhttps://github.com/ChaojunNie/RLAG.comで公開されている。
関連論文リスト
- SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation [3.5939555573102857]
Supervised Fine-Tuning (SFT) は大規模言語モデル(LLM)の訓練に不可欠である
本稿では,SFTのための高品質な命令データセットを明示的に構築するSearchInstructを提案する。
我々のアプローチは、大きな言語モデルを使用して体系的に拡張される、限定されたドメイン固有、人間生成の質問から始まります。
論文 参考訳(メタデータ) (2025-09-12T21:50:39Z) - Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging [11.377241012645994]
InForageは、動的情報探索プロセスとして検索強化推論を形式化する強化学習フレームワークである。
我々は,複雑な実世界のWebタスクに対する反復探索と推論のトラジェクトリをキャプチャするヒューマンガイドデータセットを構築した。
これらの結果は、堅牢で適応的で効率的な推論エージェントの構築におけるInForageの有効性を強調している。
論文 参考訳(メタデータ) (2025-05-14T12:13:38Z) - Structural Entropy Guided Agent for Detecting and Repairing Knowledge Deficiencies in LLMs [11.724887822269528]
大規模言語モデル(LLM)は、膨大な事前学習コーパスを活用することで、前例のない性能を達成した。
彼らの業績は、医学や科学研究のような知識集約的な領域において、依然として最適以下である。
本稿では,LLMの内在的知識不足に対処する構造エントロピー誘導型知識ナビゲータ(SENATOR)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-12T02:21:36Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - Learning Latent Hardening (LLH): Enhancing Deep Learning with Domain Knowledge for Material Inverse Problems [0.0]
本研究では, 材料ミクロ組織の機械的挙動に関するドメイン固有知識の導入について検討した。
データ制限を克服するため、2段階のフレームワークであるLearning Latent Hardening (LLH)が提案されている。
ドメイン固有の情報を持つモデルの結果は、事前知識のないモデルと比較してR2$の値が常に高い値を得た。
論文 参考訳(メタデータ) (2025-01-17T03:09:25Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
本稿では,効率的なモデル適応によりRAGシステムを強化する自己教師型フレームワークKBAlignを提案する。
私たちのキーとなる洞察は、2つの革新的なメカニズムを通じて、モデルの本質的な能力を知識の整合性に活用することです。
KBAlign は GPT-4 による適応によって得られる性能向上の90%を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。