論文の概要: Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
- arxiv url: http://arxiv.org/abs/2511.05933v1
- Date: Sat, 08 Nov 2025 08:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.662538
- Title: Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs
- Title(参考訳): 強化学習はLLMにおける階層的知識のトラバースを改善する
- Authors: Renfei Zhang, Manasa Kaniselvan, Niloofar Mireshghallah,
- Abstract要約: 我々はRL強化モデルがベースを一貫して上回り、純粋な知識リコールタスクにおいて教師付き微調整(SFT)を行うことを示す。
これらの利得は、新たに取得したデータではなく、モデルパラメータ内の既存の知識階層をナビゲートし、探索する手続き的スキルの改善に由来すると仮定する。
- 参考スコア(独自算出の注目度): 7.424730923663806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is often credited with improving language model reasoning and generalization at the expense of degrading memorized knowledge. We challenge this narrative by observing that RL-enhanced models consistently outperform their base and supervised fine-tuned (SFT) counterparts on pure knowledge recall tasks, particularly those requiring traversal of hierarchical, structured knowledge (e.g., medical codes). We hypothesize these gains stem not from newly acquired data, but from improved procedural skills in navigating and searching existing knowledge hierarchies within the model parameters. To support this hypothesis, we show that structured prompting, which explicitly guides SFTed models through hierarchical traversal, recovers most of the performance gap (reducing 24pp to 7pp on MedConceptsQA for DeepSeek-V3/R1). We further find that while prompting improves final-answer accuracy, RL-enhanced models retain superior ability to recall correct procedural paths on deep-retrieval tasks. Finally our layer-wise internal activation analysis reveals that while factual representations (e.g., activations for the statement "code 57.95 refers to urinary infection") maintain high cosine similarity between SFT and RL models, query representations (e.g., "what is code 57.95") diverge noticeably, indicating that RL primarily transforms how models traverse knowledge rather than the knowledge representation itself.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、記憶された知識の劣化を犠牲にして、言語モデルの推論と一般化を改善した。
我々は、RL強化モデルがベースを一貫して上回り、純粋な知識リコールタスク、特に階層的、構造化された知識(医療コードなど)のトラバーサルを必要とするタスクにおいて、制御された微調整(SFT)のモデルが監督されていることを観察することによって、この物語に挑戦する。
これらの利得は、新たに取得したデータではなく、モデルパラメータ内の既存の知識階層をナビゲートし、探索する手続き的スキルの改善に由来すると仮定する。
この仮説を支持するために、階層的トラバーサルを通してSFTモデルを明示的に導く構造化プロンプトは、性能ギャップの大部分を回復する(DeepSeek-V3/R1のMedConceptsQAでは24ppから7pp)。
さらに,最終回答精度の向上を推し進める一方で,RL強化モデルでは,深層検索タスクにおいて適切な手続き経路を再現する能力が保たれていることも確認した。
最後に, 階層的な内部アクティベーション分析により, SFT モデルと RL モデルとのコサイン類似性が高い一方で, 問合せ表現(例えば, "コード57.95" など)が顕著に分岐し, RL が知識表現そのものではなく, モデル間の知識の相互変換を行うことを示す。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。
ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。
我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文 参考訳(メタデータ) (2025-06-11T17:10:36Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - RARE: Retrieval-Augmented Reasoning Modeling [41.24577920467858]
本稿では,推論最適化から知識記憶を分離する新しいパラダイムであるRetrieval-Augmented Reasoning Modeling (RARE)を提案する。
RAREはドメイン知識を検索可能なソースに外部化し、トレーニング中にドメイン固有の推論パターンを内部化する。
実験により、軽量トレーニングモデル(例えば、Llama-3.1-8B)は、検索強化GPT-4とDeepSeek-R1を約20%の精度で超える、最先端のパフォーマンスを実現することができた。
論文 参考訳(メタデータ) (2025-03-30T16:49:44Z) - An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering [44.41915467956464]
大規模言語モデル(LLM)は、しばしば事実的に不正確な出力を生成する。
この現象は知識集約型NLPタスクにおける精度を制限する。
近年の研究では、モデル世代に対する忠実性を改善するために、トレーニング不要なデコード戦略を探求している。
論文 参考訳(メタデータ) (2025-03-30T12:18:21Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - On the Interpretability of Deep Learning Based Models for Knowledge
Tracing [5.120837730908589]
知識追跡により、Intelligent Tutoring Systemsは、学生が習得したトピックやスキルを推測することができる。
Deep Knowledge Tracing(DKT)やDynamic Key-Value Memory Network(DKVMN)といったディープラーニングベースのモデルは、大幅に改善されている。
しかし、これらのディープラーニングベースのモデルは、ディープニューラルネットワークによって学習される意思決定プロセスが完全には理解されていないため、他のモデルほど解釈できない。
論文 参考訳(メタデータ) (2021-01-27T11:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。