論文の概要: KnowRL: Teaching Language Models to Know What They Know
- arxiv url: http://arxiv.org/abs/2510.11407v1
- Date: Mon, 13 Oct 2025 13:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.383311
- Title: KnowRL: Teaching Language Models to Know What They Know
- Title(参考訳): KnowRL: 言語モデルに、彼らが知っていることを知るように教える
- Authors: Sahil Kale, Devendra Singh Dhami,
- Abstract要約: 本稿では,モデルの内部で実現可能性境界の理解を深める,シンプルだが強力なフレームワークであるKnowRLを提案する。
我々のフレームワークは、(i)イントロスペクション(i)モデルが判断するタスクを生成・分類する)と(ii)コンセンサスに基づく報酬(ii)の2つのコンポーネントを組み合わせています。
シードセットが小さかったり,外部監視がなかったりしても,精度は28%,F1では12%向上した。
- 参考スコア(独自算出の注目度): 9.341830361844337
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Truly reliable AI requires more than simply scaling up knowledge; it demands the ability to know what it knows and when it does not. Yet recent research shows that even the best LLMs misjudge their own competence in more than one in five cases, making any response born of such internal uncertainty impossible to fully trust. Inspired by self-improvement reinforcement learning techniques that require minimal data, we present a simple but powerful framework KnowRL that strengthens a model's internal understanding of its own feasibility boundaries, enabling safer and more responsible behaviour. Our framework combines two components: (i) introspection, where the model generates and classifies tasks it judges feasible or infeasible, and (ii) consensus-based rewarding, where stability of self-knowledge assessment is reinforced through internal agreement. By using internally generated data, this design strengthens consistency in self-knowledge and entirely avoids costly external supervision. In experiments on LLaMA-3.1-8B and Qwen-2.5-7B, KnowRL steadily improved self-knowledge, validated by both intrinsic self-consistency and extrinsic benchmarking. With nothing more than a small seed set and no external supervision, our method drove gains as high as 28% in accuracy and 12% in F1, outperforming baselines in just a few iterations. Our framework essentially unlocks the untapped capacity of LLMs to self-improve their knowledge awareness, opening the door to reliable, more accountable AI and safer deployment in critical applications. Owing to its simplicity and independence from external effort, we encourage applying this reliability-enhancing process to all future models.
- Abstract(参考訳): 真に信頼できるAIは、単に知識をスケールアップする以上のものを必要とします。
しかし最近の研究では、最高のLLMでさえ5件に1つ以上のケースで自分の能力を誤っていることが示されており、そのような内部の不確実性から生まれた反応は、完全に信頼できない。
最小限のデータを必要とする自己改善強化学習技術にインスパイアされた我々は、モデルの内部で実現可能なバウンダリに対する理解を強化し、より安全で責任ある振る舞いを可能にする、シンプルで強力なフレームワークであるKnowRLを提案する。
私たちのフレームワークは2つのコンポーネントを組み合わせています。
一 モデルが実行可能又は実行不可能と判断するタスクを生成して分類する内観
二 自己知識評価の安定性を内部合意により強化する合意に基づく報奨
内部で生成されたデータを使用することで、この設計は自己認識の一貫性を強化し、外部監視のコストを完全に回避する。
LLaMA-3.1-8BとQwen-2.5-7Bの実験では、KnowRLは自己知識を着実に改善し、本質的な自己整合性と外生的なベンチマークによって検証された。
最小限のシードセットに過ぎず,外部監視も行わないため,F1では28%,F1では12%の精度で上昇し,数回の反復でベースラインを上回りました。
我々のフレームワークは基本的に、LLMの未完成の能力を解放し、彼らの知識を自己改善し、信頼性が高く説明可能なAIへの扉を開き、重要なアプリケーションへのより安全なデプロイを可能にします。
その単純さと外部からの独立性のため、私たちはこの信頼性向上プロセスを将来のすべてのモデルに適用することを奨励します。
関連論文リスト
- Know More, Know Clearer: A Meta-Cognitive Framework for Knowledge Augmentation in Large Language Models [80.21037538996553]
本稿では,異なる介入とアライメントによる信頼度向上のための新しいメタ認知フレームワークを提案する。
我々の手法は、知識空間をマスターされた、混乱した、行方不明な領域に分割し、対象とする知識拡大を導くために、内部認知信号を活用する。
我々のフレームワークは、知識能力の向上だけでなく、未知の知識をよりよく区別する認知行動の育成においても、その合理性を検証し、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-02-13T15:07:35Z) - Epistemic Context Learning: Building Trust the Right Way in LLM-Based Multi-Agent Systems [94.9141394384021]
マルチエージェントシステムの個々のエージェントは、しばしば堅牢性を欠き、誤解を招く仲間に盲目的に適合する傾向にある。
この弱点は, 相互信頼度を評価する能力の欠如に起因していると考えられる。
まず,歴史認識参照の学習問題を定式化し,ピア間の歴史的相互作用を付加的な入力として導入する。
次に,歴史的に構築されたピアプロファイルの予測を行うための推論フレームワークであるEcestemic Context Learning (ECL) を開発した。
論文 参考訳(メタデータ) (2026-01-29T13:59:32Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Line of Duty: Evaluating LLM Self-Knowledge via Consistency in Feasibility Boundaries [0.0]
本研究は,新たな手法を用いて,異なるタイプのLDM自己知識に関する本質的な洞察を得ることを目的とする。
GPT-4oやMistral Largeのようなフロンティアモデルでさえ、その80%以上の能力を確信していないことが分かりました。
論文 参考訳(メタデータ) (2025-03-14T10:07:07Z) - To Trust or Not to Trust? Enhancing Large Language Models' Situated Faithfulness to External Contexts [10.748768620243982]
大規模言語モデル(LLM)は、検索強化世代(RAG)など、外部コンテキストで拡張されることが多い。
正しいコンテキストと間違ったコンテキストの両方を提供する場合、オープンソースモデルとプロプライエタリモデルの両方が、外部情報に過度に依存する傾向にあることを示す。
自己ガイド型信頼推論(SCR)とルールベース信頼推論(RCR)の2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:59:47Z) - How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for
Hallucination Mitigation [9.730412606588335]
我々は,Large Language Models (LLMs) の内的知識状態の識別と表現能力を評価する。
本稿では,LLMの事実と正直性を高めるために強化学習を活用する,知識フィードバックからの強化学習(RLKF)トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T16:19:30Z) - Do Large Language Models Know What They Don't Know? [74.65014158544011]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに優れた知識を持つ。
膨大な知識にもかかわらず、LLMはそれらが適合し理解できる情報の量によって制限されている。
本研究の目的は,LLMの自己理解能力を評価することである。
論文 参考訳(メタデータ) (2023-05-29T15:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。