論文の概要: Improving Parametric Knowledge Access in Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2602.22193v1
- Date: Wed, 25 Feb 2026 18:43:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.952364
- Title: Improving Parametric Knowledge Access in Reasoning Language Models
- Title(参考訳): 推論言語モデルにおけるパラメトリック知識アクセスの改善
- Authors: Melody Ma, John Hewitt,
- Abstract要約: 言語モデルのパラメータに格納された世界知識にアクセスするための推論について研究する。
モデルがデフォルトで最高の世界知識の推論を生成していないことが分かっています。
本研究では,世界知恵質問応答を用いたパラメトリック知識の学習モデルを提案する。
- 参考スコア(独自算出の注目度): 5.13724383217928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reasoning for accessing world knowledge stored in a language model's parameters. For example, recalling that Canberra is Australia's capital may benefit from thinking through major cities and the concept of purpose-built capitals. While reasoning language models are trained via reinforcement learning to produce reasoning traces on tasks such as mathematics, they may not reason well for accessing their own world knowledge. We first find that models do not generate their best world knowledge reasoning by default: adding a simple "think step-by-step" cue demonstrates statistically significant improvement in knowledge recall but not math. Motivated by this, we propose training models to reason over their parametric knowledge using world-knowledge question answering as a verifiable reward. After reinforcement learning on TriviaQA (+9.9%), performance also improves on Natural Questions, HotpotQA, SimpleQA, and StrategyQA by 4.2%, 2.1%, 0.6%, and 3.0%, respectively. Reasoning models are under-optimized for parametric knowledge access, but can be easily trained to reason better.
- Abstract(参考訳): 言語モデルのパラメータに格納された世界知識にアクセスするための推論について研究する。
例えば、キャンベラがオーストラリアの首都であることは、主要都市や目的資本の概念を通じて考えることの恩恵を受ける可能性がある。
推論言語モデルは、強化学習を通じて、数学などのタスクの推論トレースを生成するように訓練されているが、彼ら自身の世界知識にアクセスするための推論には適していないかもしれない。
単純な"ステップバイステップ"のキューを追加することで、知識のリコールは統計的に大幅に改善されているが、数学ではないことが示される。
そこで我々は,世界知識質問応答を用いてパラメトリック知識を推論する学習モデルを提案する。
TriviaQA(+9.9%)の強化学習では、自然質問、ホットポットQA、SimpleQA、StrategyQAもそれぞれ4.2%、2.1%、0.6%、3.0%改善している。
推論モデルはパラメトリックな知識アクセスのために過度に最適化されているが、より良い推論のために容易に訓練することができる。
関連論文リスト
- Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability [25.507069397981194]
本稿では,2段階のメタRLを実現することで,事前学習したモデルの潜在能力を高めて,学習を疎開し,二段階の報奨を得られることを示す。
以上の結果から, 有用なステップ石を生成できる能力は, 実際に難解な問題を解く能力を必要としないことが示唆された。
論文 参考訳(メタデータ) (2026-01-26T18:46:56Z) - Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.68385617116854]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。
我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。
7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (2024-04-08T11:11:31Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。