論文の概要: Data Doping or True Intelligence? Evaluating the Transferability of Injected Knowledge in LLMs
- arxiv url: http://arxiv.org/abs/2505.17140v1
- Date: Thu, 22 May 2025 06:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.603022
- Title: Data Doping or True Intelligence? Evaluating the Transferability of Injected Knowledge in LLMs
- Title(参考訳): データドーピングと真の知能 : LLMにおけるインジェクト知識の伝達性の評価
- Authors: Essa Jan, Moiz Ali, Muhammad Saram Hassan, Fareed Zaffar, Yasir Zaki,
- Abstract要約: 理解力に富んだ微調整タスクは、マッピング指向タスクに比べて、知識保持率(48%)が大幅に向上する。
すべてのモデルは、より広い文脈で注入された知識を適用すると、大幅な性能低下を示す。
- 参考スコア(独自算出の注目度): 1.3401773971880793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the knowledge of large language models (LLMs) becomes outdated over time, there is a growing need for efficient methods to update them, especially when injecting proprietary information. Our study reveals that comprehension-intensive fine-tuning tasks (e.g., question answering and blanks) achieve substantially higher knowledge retention rates (48%) compared to mapping-oriented tasks like translation (17%) or text-to-JSON conversion (20%), despite exposure to identical factual content. We demonstrate that this pattern persists across model architectures and follows scaling laws, with larger models showing improved retention across all task types. However, all models exhibit significant performance drops when applying injected knowledge in broader contexts, suggesting limited semantic integration. These findings show the importance of task selection in updating LLM knowledge, showing that effective knowledge injection relies not just on data exposure but on the depth of cognitive engagement during fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)の知識が時代遅れになるにつれて、特にプロプライエタリな情報を注入する場合に、それらを更新するための効率的な方法の必要性が高まっている。
本研究は,質問応答や空白などの理解集約的な微調整タスクが,同一の事実コンテンツに曝露しても,翻訳(17%)やテキスト・トゥ・JSON変換(20%)といったマッピング指向タスクに比べて,知識保持率(48%)が著しく向上していることを明らかにする。
我々は、このパターンがモデルアーキテクチャにまたがって持続し、スケーリング法則に従うことを実証した。
しかしながら、すべてのモデルは、より広い文脈で注入された知識を適用する際に、大幅な性能低下を示し、セマンティック統合が限定されていることを示唆している。
これらの結果から, LLM知識の更新におけるタスク選択の重要性が示唆され, 効果的な知識注入はデータ露出だけでなく, 微調整時の認知的エンゲージメントの深さにも依存していることが示唆された。
関連論文リスト
- Using External knowledge to Enhanced PLM for Semantic Matching [38.125341836302525]
本稿では,事前学習された意味的関連性判別モデルを強化するために,外部知識を用いる。
10個の公開データセットに対する実験結果から,本手法が一貫した性能向上を実現することが示された。
論文 参考訳(メタデータ) (2025-05-10T11:33:48Z) - From Style to Facts: Mapping the Boundaries of Knowledge Injection with Finetuning [40.141932069582204]
Finetuningは、特定のタスクやレスポンススタイルのために言語モデルをカスタマイズするスケーラブルで費用対効果の高い手段を提供する。
対照的に、従来の知恵は、微調整によって知識を注入すると、不安定な性能と一般化が低下する。
我々は、フロンティアGemini v1.5モデルファミリーをデータセットのスペクトル上で微調整する大規模な実験を行った。
論文 参考訳(メタデータ) (2025-03-07T20:35:31Z) - LLMs as Repositories of Factual Knowledge: Limitations and Solutions [1.7764955091415962]
本研究では,事実知識のリポジトリとしてのLarge Language Models(LLMs)の妥当性について検討する。
時間に敏感な事実質問に応答する際の信頼性を評価する。
本稿では,モデルの性能向上を図るため,ENAF(ENtity-Aware Fine-tuning)を提案する。
論文 参考訳(メタデータ) (2025-01-22T10:16:53Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。