論文の概要: Latent Knowledge as a Predictor of Fact Acquisition in Fine-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2601.18468v1
- Date: Mon, 26 Jan 2026 13:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.840789
- Title: Latent Knowledge as a Predictor of Fact Acquisition in Fine-Tuned Large Language Models
- Title(参考訳): 微調整大言語モデルにおけるFact Acquisitionの予測子としての潜在知識
- Authors: Daniel B. Hier, Tayo Obafemi-Ajayi,
- Abstract要約: 大規模言語モデルは、事前訓練後に不均一な強度で生医学的な事実を記憶する。
潜在知識は、より高速な事実獲得の最も強力な予測者だった。
GO事実を否定する一般化は一般的ではないが(5.8%)、潜伏した知識が存在するとよりありそうである。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models store biomedical facts with uneven strength after pretraining: some facts are present in the weights but are not reliably accessible under deterministic decoding (latent knowledge), while others are scarcely represented. We fine tuned Llama 3.1 8B Instruct to learn ontology term identifier mappings from the Human Phenotype Ontology (800 pairs) and the Gene Ontology (400 training pairs), withholding 400 GO pairs to test generalization. Treating learning as a time to event process across 20 epochs, we used stochastic decoding to detect latent knowledge at baseline and Cox proportional hazards models to identify predictors of acquisition, generalization, and degradation. Baseline deterministic recall for HPO was 2.8%, rising to 71.9% after fine-tuning. Latent knowledge was the strongest predictor of faster fact acquisition (HR 2.6) and was associated with earlier, higher peak learning rates and faster convergence; identifier frequency and curated annotation counts had smaller effects. Generalization to withheld GO facts was uncommon (5.8%) but more likely when latent knowledge was present. Previously correct GO mappings degraded more often for withheld (unseen) terms than for trained (seen) terms, suggesting a protective effect of reinforcement during training. These results show that latent knowledge predicts both the speed of factual learning during fine-tuning and the limited generalization of unseen ontology facts, while resistance to degradation depends on whether facts are reinforced.
- Abstract(参考訳): ある事実は重みの中に存在するが、決定論的復号(相対的知識)の下では確実にアクセスできない。
Llama 3.1 8B Instructs to learn ontology term Identifications from the Human Phenotype Ontology (800 pairs) and the Gene Ontology (400 training pairs) with holding 400 GO pairs to test generalization。
20年代にわたって学習をイベント処理の時間として扱うことで,ベースラインにおける潜伏知識の検出に確率的復号法を用い,コークス比例的ハザードモデルを用いて,獲得,一般化,劣化の予測因子を同定した。
HPOの基準決定論的リコールは2.8%であり、微調整後に71.9%まで上昇した。
潜在知識は、より高速な事実取得(HR 2.6)の最も強力な予測者であり、より早いピーク学習率とより高速な収束と関連付けられていた。
GO事実を否定する一般化は一般的ではないが(5.8%)、潜伏した知識が存在するとよりありそうである。
以前の正しいGOマッピングは、訓練中の強化の保護効果を示唆し、訓練された(見えない)用語よりも、保持されていない(見えない)用語の方が劣化した。
これらの結果から、潜伏知識は、微調整中の事実学習の速度と、見えないオントロジー事実の限定的な一般化の両方を予測し、一方、劣化に対する抵抗は事実が強化されているかどうかに依存することが示された。
関連論文リスト
- In Praise of Stubbornness: An Empirical Case for Cognitive-Dissonance Aware Continual Update of Knowledge in LLMs [12.126745558519737]
大きな言語モデルは矛盾を無差別に受け入れ、破壊的な干渉を引き起こし、最大80%の無関係な知識を破壊します。
我々は,単純なモデル特徴を用いて矛盾情報を確実に検出できることを実証し,潜在的な保護機構を提供する。
これらの発見は、人間のように、破壊的な上書きを許すのではなく、自然に矛盾に抵抗できる新しいアーキテクチャを動機付けている。
論文 参考訳(メタデータ) (2025-02-05T23:49:33Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall [31.45796499298925]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示している。
プレトレーニングから学んだ事実的知識をリコールするLLMの能力を評価することに注力する。
10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
論文 参考訳(メタデータ) (2024-04-24T19:40:01Z) - Few-Shot Class-Incremental Learning with Prior Knowledge [94.95569068211195]
本稿では,事前学習モデルの一般化能力を高めるために,先行知識を用いた学習(LwPK)を提案する。
実験結果から,LwPKは破滅的忘れ込みに対するモデルレジリエンスを効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-02-02T08:05:35Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Mitigating Temporal Misalignment by Discarding Outdated Facts [58.620269228776294]
大規模な言語モデルは、しばしば時間的ミスアライメントの下で使われ、現在に関する質問に答える。
我々は、ある事実がいつまで真実であるかを予測するタスクとして、事実期間予測を提案する。
私たちのデータとコードはhttps://github.com/mikejqzhang/mitigating_misalignment.comで公開されています。
論文 参考訳(メタデータ) (2023-05-24T07:30:08Z) - Investigating Forgetting in Pre-Trained Representations Through
Continual Learning [51.30807066570425]
事前学習した言語モデルの汎用性に及ぼす表現忘れの影響について検討する。
様々な事前学習されたLMで一般化が破壊され,構文的・意味的知識は連続学習によって忘れられることがわかった。
論文 参考訳(メタデータ) (2023-05-10T08:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。