Fugu-MT 論文翻訳(概要): Improving Parametric Knowledge Access in Reasoning Language Models

論文の概要: Improving Parametric Knowledge Access in Reasoning Language Models

arxiv url: http://arxiv.org/abs/2602.22193v1
Date: Wed, 25 Feb 2026 18:43:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.952364
Title: Improving Parametric Knowledge Access in Reasoning Language Models
Title（参考訳）: 推論言語モデルにおけるパラメトリック知識アクセスの改善
Authors: Melody Ma, John Hewitt,
Abstract要約: 言語モデルのパラメータに格納された世界知識にアクセスするための推論について研究する。モデルがデフォルトで最高の世界知識の推論を生成していないことが分かっています。本研究では,世界知恵質問応答を用いたパラメトリック知識の学習モデルを提案する。
参考スコア（独自算出の注目度）: 5.13724383217928
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study reasoning for accessing world knowledge stored in a language model's parameters. For example, recalling that Canberra is Australia's capital may benefit from thinking through major cities and the concept of purpose-built capitals. While reasoning language models are trained via reinforcement learning to produce reasoning traces on tasks such as mathematics, they may not reason well for accessing their own world knowledge. We first find that models do not generate their best world knowledge reasoning by default: adding a simple "think step-by-step" cue demonstrates statistically significant improvement in knowledge recall but not math. Motivated by this, we propose training models to reason over their parametric knowledge using world-knowledge question answering as a verifiable reward. After reinforcement learning on TriviaQA (+9.9%), performance also improves on Natural Questions, HotpotQA, SimpleQA, and StrategyQA by 4.2%, 2.1%, 0.6%, and 3.0%, respectively. Reasoning models are under-optimized for parametric knowledge access, but can be easily trained to reason better.
Abstract（参考訳）: 言語モデルのパラメータに格納された世界知識にアクセスするための推論について研究する。例えば、キャンベラがオーストラリアの首都であることは、主要都市や目的資本の概念を通じて考えることの恩恵を受ける可能性がある。推論言語モデルは、強化学習を通じて、数学などのタスクの推論トレースを生成するように訓練されているが、彼ら自身の世界知識にアクセスするための推論には適していないかもしれない。単純な"ステップバイステップ"のキューを追加することで、知識のリコールは統計的に大幅に改善されているが、数学ではないことが示される。そこで我々は,世界知識質問応答を用いてパラメトリック知識を推論する学習モデルを提案する。 TriviaQA(+9.9%)の強化学習では、自然質問、ホットポットQA、SimpleQA、StrategyQAもそれぞれ4.2%、2.1%、0.6%、3.0%改善している。推論モデルはパラメトリックな知識アクセスのために過度に最適化されているが、より良い推論のために容易に訓練することができる。

論文の概要: Improving Parametric Knowledge Access in Reasoning Language Models

関連論文リスト