論文の概要: When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
- arxiv url: http://arxiv.org/abs/2505.16170v1
- Date: Thu, 22 May 2025 03:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.007026
- Title: When Do LLMs Admit Their Mistakes? Understanding the Role of Model Belief in Retraction
- Title(参考訳): LLMはミスを許すのか? : モデル信念がリトラクションに果たす役割を理解する
- Authors: Yuqing Yang, Robin Jia,
- Abstract要約: 我々は、事前生成された回答における認識誤りの挙動を「取り消し」として定義する。
我々は、リトラクションがモデルの内部信念の指標と密接な関係があることを実証する。
実験により、内的信念はモデルリトラクションに因果的に影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 24.49830646625232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can large language models (LLMs) admit their mistakes when they should know better? In this work, we define the behavior of acknowledging errors in previously generated answers as "retraction" and aim to understand when and why LLMs choose to retract. We first construct model-specific datasets to evaluate whether a model will retract an incorrect answer that contradicts its own parametric knowledge. While LLMs are capable of retraction, they do so only infrequently. We demonstrate that retraction is closely tied to previously identified indicators of models' internal belief: models fail to retract wrong answers that they "believe" to be factually correct. Steering experiments further demonstrate that internal belief causally influences model retraction. In particular, when the model does not believe its answer, this not only encourages the model to attempt to verify the answer, but also alters attention behavior during self-verification. Finally, we demonstrate that simple supervised fine-tuning significantly improves retraction performance by helping the model learn more accurate internal beliefs. Code and datasets are available on https://github.com/ayyyq/llm-retraction.
- Abstract(参考訳): 大きな言語モデル(LLM)は、もっとよく知るべき時に間違いを認めることができるだろうか?
本研究では,以前に生成した回答における誤り認識の振る舞いを「引き抜き」と定義し,LLMがいつ,なぜ引き抜きを選んだのかを理解することを目的とする。
まず、モデル固有のデータセットを構築し、モデルが自身のパラメトリック知識と矛盾する誤った回答を抽出するかどうかを評価する。
LLMは取り外しが可能であるが、それはまれにしか行われない。
我々は、リトラクションが、モデルの内部信念の以前に特定された指標と密接に結びついていることを示します。
ステアリング実験は、内部の信念がモデルリトラクションに因果的に影響を及ぼすことを示した。
特に、モデルがその解答を信じていない場合、これはモデルが解答を検証しようとすることを奨励するだけでなく、自己検証中の注意行動を変化させる。
最後に、簡単な教師付き微調整により、モデルがより正確な内部信念を学習できるようにすることにより、リトラクション性能が大幅に向上することを示す。
コードとデータセットはhttps://github.com/ayyyq/llm-retractionで入手できる。
関連論文リスト
- Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning [36.74368293113009]
本研究では,真の信念を同時に拡張しつつ,素早い信念を抑えることによって信念空間を是正する手法を提案する。
提案手法はまず, モデルに文章の説明文を生成するように促すことにより, 誤った解答につながる信念を同定する。
次に、未学習を適用して、同定された刺激的な信念を抑え、真の信念を強化することにより、モデルの信念空間を効果的に修正する。
論文 参考訳(メタデータ) (2025-02-28T00:57:45Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence [22.89240200094172]
1200以上の質問のデータセット上で,上位6つの大規模言語モデル (LLM) をベンチマークした。
LLMは不正検索されたコンテンツの60%以上を利用できないことが判明した。
この発見を利用して、検索されたコンテンツに矛盾がある場合のモデル精度を向上させるための簡単な手法を実証する。
論文 参考訳(メタデータ) (2024-04-16T00:43:03Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Calibration Meets Explanation: A Simple and Effective Approach for Model
Confidence Estimates [21.017890579840145]
本稿では,モデル説明を活用するCMEという手法を提案し,非帰納的属性に対するモデルの信頼性を低下させる。
我々は,2つの人気のある事前学習言語モデルを用いて,6つのデータセットに関する広範な実験を行った。
以上の結果から,モデル説明が後部推定の校正に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-11-06T06:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。