論文の概要: How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models
- arxiv url: http://arxiv.org/abs/2509.19371v1
- Date: Fri, 19 Sep 2025 07:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.521755
- Title: How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models
- Title(参考訳): 知識を効率的に注入する方法 : 事前学習型大規模言語モデルの知識注入スケーリング法
- Authors: Kangtao Lv, Haibin Chen, Yujin Yuan, Langming Liu, Shilei Liu, Yongwei Wang, Wenbo Su, Bo Zheng,
- Abstract要約: 大きな言語モデル(LLM)は、様々な下流タスクにまたがる印象的な汎用性のために、大きな注目を集めている。
近年の研究では、事前訓練中にドメイン知識を戦略的に活用することで、下流のパフォーマンスが大幅に向上することが示されている。
本研究では,LLMに注入するドメイン知識の最適な量を予測するための知識注入スケーリング法を提案する。
- 参考スコア(独自算出の注目度): 17.129300781943655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な下流タスクにまたがる印象的な汎用性のために、大きな注目を集めている。
しかし、ドメイン固有の最適化がなければ、専門的な知識ベンチマークでは性能が劣り、幻覚さえも生ずる。
近年の研究では、事前訓練中にドメイン知識を戦略的に活用することで、下流のパフォーマンスが大幅に向上することが示されている。
ドメイン固有のデータが少なすぎると、専門化が不十分になるのに対して、過剰な注入は、以前取得した知識を破滅的に忘れてしまう。
本研究では,過剰注入によるメモリ崩壊現象に着目した。
系統的な実験を通じて、我々は2つの重要な観察を行う。
1) 臨界崩壊点: 各モデルは、その知識保持能力が著しく低下するしきい値を示す。
2) スケール相関: これらの崩壊点はモデルのサイズと一貫してスケールする。
これらの知見に基づいて、我々は、より小さな分野を解析することにより、大規模LLMに注入するドメイン知識の最適な量を予測する知識注入スケーリング法を提案する。
異なるモデルサイズにまたがる広範囲な実験とトークン予算は、スケーリング法の有効性と一般化性の両方を検証します。
関連論文リスト
- CAT: Causal Attention Tuning For Injecting Fine-grained Causal Knowledge into Large Language Models [42.12079243701232]
因果注意チューニング(Causal Attention Tuning, CAT)は、注意機構に微粒な因果知識を注入する新しいアプローチである。
トークンレベルの因果信号を自動的に生成するために,人間の先行情報を活用する自動パイプラインを提案する。
CatはSTGデータセットで5.76%、下流タスクで1.56%の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-09-01T15:13:15Z) - Rethinking the Outlier Distribution in Large Language Models: An In-depth Study [4.740962650068888]
外乱は、しばしば相当量の量子化エラーを引き起こし、劣化したモデル性能をもたらす。
近年の研究では、大規模なアクティベーション(英語版)とチャネルワイド・アウトリーチ(英語版)という、大きな言語モデルにおける2つの一般的なアウトリーチが特定されている。
論文 参考訳(メタデータ) (2025-05-27T18:48:40Z) - Scaling Laws for Data-Efficient Visual Transfer Learning [14.114908296325277]
本稿では,視覚伝達学習におけるデータ効率のスケーリング法則に関する最初の実践的枠組みを確立する。
本稿では,蒸留効率の重要な転換点を明らかにする蒸留境界理論を提案する。
この研究は、データ制限されたレシエーションのスケーリング法則を再定義し、大規模事前学習と実践的な下流適応の知識ギャップを埋める。
論文 参考訳(メタデータ) (2025-04-17T07:01:01Z) - Can Large Language Models Help Experimental Design for Causal Discovery? [94.66802142727883]
Large Language Model Guided Intervention Targeting (LeGIT) は、LLMを効果的に組み込んだ堅牢なフレームワークであり、因果発見のための介入のための既存の数値的アプローチを強化する。
LeGITは、既存の方法よりも大幅な改善と堅牢性を示し、人間を超越している。
論文 参考訳(メタデータ) (2025-03-03T03:43:05Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。
LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。
COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。