論文の概要: Think Before You Lie: How Reasoning Improves Honesty
- arxiv url: http://arxiv.org/abs/2603.09957v1
- Date: Tue, 10 Mar 2026 17:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.517856
- Title: Think Before You Lie: How Reasoning Improves Honesty
- Title(参考訳): 嘘をつく前に考える:Reasoningはいかに正直に改善するか
- Authors: Ann Yuan, Asma Ghandeharioun, Carter Blum, Alicia Machado, Jessica Hoffmann, Daphne Ippolito, Martin Wattenberg, Lucas Dixon, Katja Filippova,
- Abstract要約: 推論は、スケールや複数のLLMファミリーに対して、一貫して誠実性を高めている。
本研究では, 入力パラフレーズ, 出力再サンプリング, アクティベーションノイズにより, 誤認識の解答がより容易に不安定化されることを観察する。
- 参考スコア(独自算出の注目度): 28.52525232420743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While existing evaluations of large language models (LLMs) measure deception rates, the underlying conditions that give rise to deceptive behavior are poorly understood. We investigate this question using a novel dataset of realistic moral trade-offs where honesty incurs variable costs. Contrary to humans, who tend to become less honest given time to deliberate (Capraro, 2017; Capraro et al., 2019), we find that reasoning consistently increases honesty across scales and for several LLM families. This effect is not only a function of the reasoning content, as reasoning traces are often poor predictors of final behaviors. Rather, we show that the underlying geometry of the representational space itself contributes to the effect. Namely, we observe that deceptive regions within this space are metastable: deceptive answers are more easily destabilized by input paraphrasing, output resampling, and activation noise than honest ones. We interpret the effect of reasoning in this vein: generating deliberative tokens as part of moral reasoning entails the traversal of a biased representational space, ultimately nudging the model toward its more stable, honest defaults.
- Abstract(参考訳): 大規模言語モデル (LLMs) の既存の評価は偽装率を測るが, 偽装行動を引き起こす根底にある条件はよく理解されていない。
本稿では, 現実的な道徳的トレードオフのデータセットを用いて, 誠実さが変動コストを生じさせる問題について検討する。
人間とは対照的に、意図的に考える時間が少ない(Capraro, 2017; Capraro et al , 2019)。
この効果は、推論内容の関数であるだけでなく、推論の痕跡は最終的な行動の予測に乏しいためである。
むしろ、表現空間の基底幾何学自体が効果に寄与することを示す。
すなわち,この空間内の知覚領域はメタスタブルであり,入力パラフレーズ,出力再サンプリング,アクティベーションノイズにより,より容易に解答が不安定になる。
道徳的推論の一部としてデリバティブトークンを生成することは、偏りのある表現空間のトラバースを伴い、最終的により安定で正直なデフォルトに向かってモデルをヌードする。
関連論文リスト
- Imagination Helps Visual Reasoning, But Not Yet in Latent Space [65.80396132375571]
因果関係分析を用いた潜伏推論の有効性について検討した。
潜在トークンが限られた視覚情報を符号化し、高い類似性を示すことを示す。
CapImagineという簡単な代替案を提案し、テキストを明示的に想像するようにモデルに教える。
論文 参考訳(メタデータ) (2026-02-26T08:56:23Z) - The Paradox of Robustness: Decoupling Rule-Based Logic from Affective Noise in High-Stakes Decision-Making [1.0671844383558033]
大規模言語モデル(LLM)は、小さな急激な摂動に敏感であり、ユーザのバイアスとサイコファン的アライメントの傾向が広く文書化されている。
LLMは人体よりも110~300倍の抵抗性を示すロバスト性ギャップを定量化する。
LLMはクエリのフォーマットの“脆弱”な場合もありますが,決定にバイアスがかかる理由に対して,非常に“安定”しているのです。
論文 参考訳(メタデータ) (2026-01-29T09:17:05Z) - The Imperfective Paradox in Large Language Models [19.058068907991277]
本研究では,過去の進歩的側面が,達成のためのものではなく,活動のイベント実現を伴っている不完全なパラドックスについて検討する。
多様なセマンティッククラスでこの区別を探索するために設計された診断データセットであるImperfectiveNLIを紹介する。
広汎なテレロジカルバイアス: 目標志向のイベントの完了を体系的に幻覚させるモデル。
論文 参考訳(メタデータ) (2026-01-14T10:57:16Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - The First Impression Problem: Internal Bias Triggers Overthinking in Reasoning Models [38.11937119873932]
推論モデルは、冗長な推論ステップを特徴とする過度な思考を示すことが多い。
我々は、入力問題によって引き起こされる内部バイアスを、そのような行動の鍵となる引き金とみなす。
論文 参考訳(メタデータ) (2025-05-22T09:35:52Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - How Entangled is Factuality and Deception in German? [10.790059579736276]
偽造検出と事実チェックの研究は、しばしば事実の正確さと文の真偽を混同する。
信念に基づく騙しフレームワークは、人々が何を言っているのか、本当に信じるのかのミスマッチがあるときに、テキストを欺くものとして定義することで、これらの特性を歪めます。
確立された信念に基づく議論のコーパスを用いて,嘘検出における計算モデルの有効性を検証した。
論文 参考訳(メタデータ) (2024-09-30T10:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。