論文の概要: Preference Learning with Lie Detectors can Induce Honesty or Evasion
- arxiv url: http://arxiv.org/abs/2505.13787v1
- Date: Tue, 20 May 2025 00:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.576428
- Title: Preference Learning with Lie Detectors can Induce Honesty or Evasion
- Title(参考訳): リーディテクターによる優先学習は、正直さやエベイションを誘発できる
- Authors: Chris Cundy, Adam Gleave,
- Abstract要約: 嘘検出器は誤認行動を正確に分類できるが、訓練パイプラインでは一般的には使用されない。
学習方針が真に正直なのか、それとも偽りの検知器を騙すことを学ぶのかを検証する。
オフ・ポリシー・アルゴリズム(DPO)は、現実的なTPRに対して25%未満の偽造率をもたらす。
- 参考スコア(独自算出の注目度): 6.488157280516656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more capable, deceptive behaviors can undermine evaluation and mislead users at deployment. Recent work has shown that lie detectors can accurately classify deceptive behavior, but they are not typically used in the training pipeline due to concerns around contamination and objective hacking. We examine these concerns by incorporating a lie detector into the labelling step of LLM post-training and evaluating whether the learned policy is genuinely more honest, or instead learns to fool the lie detector while remaining deceptive. Using DolusChat, a novel 65k-example dataset with paired truthful/deceptive responses, we identify three key factors that determine the honesty of learned policies: amount of exploration during preference learning, lie detector accuracy, and KL regularization strength. We find that preference learning with lie detectors and GRPO can lead to policies which evade lie detectors, with deception rates of over 85\%. However, if the lie detector true positive rate (TPR) or KL regularization is sufficiently high, GRPO learns honest policies. In contrast, off-policy algorithms (DPO) consistently lead to deception rates under 25\% for realistic TPRs. Our results illustrate a more complex picture than previously assumed: depending on the context, lie-detector-enhanced training can be a powerful tool for scalable oversight, or a counterproductive method encouraging undetectable misalignment.
- Abstract(参考訳): AIシステムがより能力を持つようになると、偽りの振る舞いは評価を損なう可能性があり、デプロイ時にユーザを誤解させる可能性がある。
近年の研究では、嘘検知器は偽造行為を正確に分類できることが示されているが、汚染や客観的ハッキングに関する懸念から、訓練パイプラインでは一般的に使われていない。
本研究は,LLMポストトレーニングのラベル付けステップに嘘検出器を組み込んで,学習方針が真に誠実であるかどうかを検証し,その代わりに,嘘検出器を騙すことを学習する。
DolusChatは、ペア化された真理/偽の応答を持つ新しい65kサンプルデータセットであり、優先学習中の探索の量、嘘検出精度、KL正規化強度の3つの要因を識別する。
嘘検出器とGRPOによる嗜好学習は、嘘検出器を回避し、85%以上の偽装率でポリシーを導出できることがわかった。
しかし、嘘検出真の正率(TPR)やKL正則化が十分に高い場合、GRPOは正直なポリシーを学ぶ。
対照的に、非政治アルゴリズム(DPO)は、現実的なTPRに対して25倍未満の偽造率をもたらす。
以上の結果から,従来想定されていたより複雑なイメージが示される。コンテキストによっては,非検出型トレーニングは,スケーラブルな監視のための強力なツールになり得る。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文 参考訳(メタデータ) (2023-09-26T16:07:54Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z) - Combining Deep Learning and Verification for Precise Object Instance
Detection [13.810783248835186]
我々は,提案した検出を受理するためにパスしなければならない検証テストのセットを開発する。
これらのテストにより、ベース検出器の全体的な精度が向上し、受け入れられたサンプルが正しい可能性が極めて高いことを示す。
これにより、検出器は高精度なシステムで動作することができ、したがってロボット認識システムに使用できる。
論文 参考訳(メタデータ) (2019-12-27T18:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。