論文の概要: Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
- arxiv url: http://arxiv.org/abs/2601.11258v1
- Date: Fri, 16 Jan 2026 13:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.495176
- Title: Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation
- Title(参考訳): 知識不足:継続的適応のためのRLスキルの注入
- Authors: Pingzhi Tang, Yiding Wang, Muhan Zhang,
- Abstract要約: 大きな言語モデル(LLM)は、"知識の遮断"という課題に直面します。
Supervised Fine-Tuning (SFT) は、モデル知識の更新に一般的に使用されるが、しばしば、質問応答や意思決定に新たに組み込まれた情報を使用する能力を確実に改善することなく、実際のコンテンツを更新する。
本稿では,効果的な知識適応のためのモジュール型スキルトランスファーをサポートするParametric Skill Transfer (PaST)を提案する。
- 参考スコア(独自算出の注目度): 33.52270845871034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) face the "knowledge cutoff" challenge, where their frozen parametric memory prevents direct internalization of new information. While Supervised Fine-Tuning (SFT) is commonly used to update model knowledge, it often updates factual content without reliably improving the model's ability to use the newly incorporated information for question answering or decision-making. Reinforcement Learning (RL) is essential for acquiring reasoning skills; however, its high computational cost makes it impractical for efficient online adaptation. We empirically observe that the parameter updates induced by SFT and RL are nearly orthogonal. Based on this observation, we propose Parametric Skill Transfer (PaST), a framework that supports modular skill transfer for efficient and effective knowledge adaptation. By extracting a domain-agnostic Skill Vector from a source domain, we can linearly inject knowledge manipulation skills into a target model after it has undergone lightweight SFT on new data. Experiments on knowledge-incorporation QA (SQuAD, LooGLE) and agentic tool-use benchmarks (ToolBench) demonstrate the effectiveness of our method. On SQuAD, PaST outperforms the state-of-the-art self-editing SFT baseline by up to 9.9 points. PaST further scales to long-context QA on LooGLE with an 8.0-point absolute accuracy gain, and improves zero-shot ToolBench success rates by +10.3 points on average with consistent gains across tool categories, indicating strong scalability and cross-domain transferability of the Skill Vector.
- Abstract(参考訳): 大きな言語モデル(LLM)は、凍結したパラメトリックメモリが新しい情報の直接の内部化を防ぐ「知識の遮断」課題に直面している。
Supervised Fine-Tuning (SFT) はモデル知識の更新に一般的に使用されるが、多くの場合、モデルが新たに組み込まれた情報を用いて質問応答や意思決定を行う能力を確実に改善することなく、実際のコンテンツを更新する。
強化学習(Reinforcement Learning, RL)は推論スキルの獲得に不可欠であるが, その計算コストが高いため, 効率的なオンライン適応には実用的ではない。
SFTおよびRLにより誘導されるパラメータ更新がほぼ直交していることを実証的に観察した。
そこで本研究では,効果的な知識適応のためのモジュール型スキルトランスファーを支援するParametric Skill Transfer (PaST)を提案する。
ドメインに依存しないスキルベクターをソースドメインから抽出することにより、新しいデータに対して軽量なSFTを実行した後、ターゲットモデルに知識操作スキルを線形に注入することができる。
知識包摂型QA (SQuAD, LooGLE) とエージェントツール利用ベンチマーク (ToolBench) の実験により, 本手法の有効性が示された。
SQuADでは、PaSTは最先端の自己編集SFTベースラインを最大9.9ポイント上回る。
PaSTはさらに8.0ポイントの絶対精度でLooGLE上の長いコンテキストのQAにスケールし、ゼロショットのToolBench成功率を平均+10.3ポイント改善し、ツールカテゴリ全体で一貫したゲインを実現し、Skill Vectorの強力なスケーラビリティとクロスドメイン転送可能性を示している。
関連論文リスト
- Continual Knowledge Adaptation for Reinforcement Learning [37.4253231932861]
強化学習により、エージェントは環境との相互作用を通じて最適な行動を学ぶことができる。
歴史的知識の蓄積と有効活用を可能にする強化学習のための継続的知識適応(CKA-RL)を提案する。
3つのベンチマーク実験により、提案したCKA-RLは最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-10-22T07:25:41Z) - Compute Optimal Scaling of Skills: Knowledge vs Reasoning [50.76705503978189]
計算-最適スケーリングの振る舞いがスキルに依存しているかどうかを問う。
特に,知識に基づくQAやコード生成といった知識と推論に基づくスキルについて検討する。
本研究は,検証セットを用いた標準的な計算-最適スケーリングとの関連性について分析した。
論文 参考訳(メタデータ) (2025-03-13T05:21:22Z) - KaSA: Knowledge-Aware Singular-Value Adaptation of Large Language Models [11.07333593086842]
知識認識型特異値適応(KaSA)
本稿では,知識認識特異値を用いた特異値分解(SVD)を利用したPEFT手法である知識認識特異値適応(KaSA)を導入し,その課題との関連性に基づいて,知識を動的に活性化する。
実験の結果、KaSAは16のベンチマークと4つの合成データセットでFFTと14のPEFTベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-08T21:26:22Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
本稿では,効率的なモデル適応によりRAGシステムを強化する自己教師型フレームワークKBAlignを提案する。
私たちのキーとなる洞察は、2つの革新的なメカニズムを通じて、モデルの本質的な能力を知識の整合性に活用することです。
KBAlign は GPT-4 による適応によって得られる性能向上の90%を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。