論文の概要: Training LLMs for Honesty via Confessions
- arxiv url: http://arxiv.org/abs/2512.08093v1
- Date: Mon, 08 Dec 2025 23:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.749762
- Title: Training LLMs for Honesty via Confessions
- Title(参考訳): 紛争による名誉のためのLLMの訓練
- Authors: Manas Joglekar, Jeremy Chen, Gabriel Wu, Jason Yosinski, Jasmine Wang, Boaz Barak, Amelia Glaese,
- Abstract要約: 大規模言語モデル(LLM)は、その行動や信念を報告する際に不適切である可能性がある。
本稿では,自己報告した *confession* を通じて LLM の欠点を正直に表現する手法を提案する。
モデルが"メイン"の回答で欠点を犯したり省いたりすると、しばしばこれらの振る舞いを正直に告白します。
- 参考スコア(独自算出の注目度): 8.828533963366032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be dishonest when reporting on their actions and beliefs -- for example, they may overstate their confidence in factual claims or cover up evidence of covert actions. Such dishonesty may arise due to the effects of reinforcement learning (RL), where challenges with reward shaping can result in a training process that inadvertently incentivizes the model to lie or misrepresent its actions. In this work we propose a method for eliciting an honest expression of an LLM's shortcomings via a self-reported *confession*. A confession is an output, provided upon request after a model's original answer, that is meant to serve as a full account of the model's compliance with the letter and spirit of its policies and instructions. The reward assigned to a confession during training is solely based on its honesty, and does not impact positively or negatively the main answer's reward. As long as the "path of least resistance" for maximizing confession reward is to surface misbehavior rather than covering it up, this incentivizes models to be honest in their confessions. Our findings provide some justification this empirical assumption, especially in the case of egregious model misbehavior. To demonstrate the viability of our approach, we train GPT-5-Thinking to produce confessions, and we evaluate its honesty in out-of-distribution scenarios measuring hallucination, instruction following, scheming, and reward hacking. We find that when the model lies or omits shortcomings in its "main" answer, it often confesses to these behaviors honestly, and this confession honesty modestly improves with training. Confessions can enable a number of inference-time interventions including monitoring, rejection sampling, and surfacing issues to the user.
- Abstract(参考訳): 大規模言語モデル(LLM)は、彼らの行動や信念を報告する際に不名誉になりかねない - 例えば、事実的主張に対する自信を誇張したり、隠蔽行為の証拠を隠蔽することがある。
このような不便さは強化学習(RL)の影響によって生じ、報酬形成に伴う課題は、意図せずモデルに偽りや誤表現を動機付ける訓練プロセスをもたらす可能性がある。
本研究では,自己報告した *confession* を通じて LLM の欠点を正直に表現する手法を提案する。
自白は、モデルの最初の回答の後に要求に応じて与えられる出力であり、それはモデルが文字に準拠することの完全な説明と、その方針と指示の精神を果たすことを目的としている。
トレーニング中に告白に割り当てられた報酬は、その誠実さにのみ基づき、主回答の報酬に肯定的または否定的に影響を及ぼさない。
自白報酬を最大化するための「最小抵抗の道」が、それを覆うのではなく、誤った行動を起こすことである限り、このことは自白においてモデルに誠実であることにインセンティブを与える。
以上の結果から, 経験的仮定, 特に過酷なモデル行動の誤動作については, ある程度の正当性が示唆された。
提案手法の有効性を示すため,GPT-5-Thinking を訓練して自白を行い,幻覚,指示,スケジュール,報酬のハッキングを計測するアウト・オブ・ディストリビューションシナリオにおいて,その誠実さを評価する。
モデルが"メイン"の回答で欠点を犯したり省いたりすると、しばしばこれらの振る舞いを正直に告白し、この告白はトレーニングによって穏やかに改善する。
競合は、監視、リジェクションサンプリング、ユーザへの課題の解決など、多くの推論時間の介入を可能にする。
関連論文リスト
- Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs [95.06033929366203]
大規模言語モデル(LLM)開発者は、モデルが誠実で、有用で、無害であることを目標としている。
我々は,フロンティアLSMが,他の選択肢が利用可能であっても,新たな戦略として不便さを優先して開発可能であることを示す。
偽装する確率の明確な原因は見つからないが、より有能なモデルがこの戦略を実行するのに優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:56Z) - But what is your honest answer? Aiding LLM-judges with honest alternatives using steering vectors [0.0]
Judge Using Safety-Steered Alternatives (JUSSA) は、推論中にステアリングベクトルを使用してより正直な代替品を生成するフレームワークである。
梅毒検出における JUSSA の評価を行い,複数種類の操作を対象とする新しい操作データセットを提案する。
システムの高度化に伴い,当社の作業は,スケーラブルなモデル監査のための新たな方向性を開拓します。
論文 参考訳(メタデータ) (2025-05-23T11:34:02Z) - Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。
15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-03-22T23:35:49Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。
これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。
本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Dishonesty in Helpful and Harmless Alignment [26.123327022999124]
大規模言語モデル(LLM)は、人間の好みを満たす場合の報酬を得る強化学習によって、人間の価値に整合している。
また、LSMが無害反応を生じさせると嘘をつくような無害なアライメントにおいても、これは不当な結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2024-06-04T03:31:09Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文 参考訳(メタデータ) (2020-02-02T14:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。