論文の概要: Do Large Language Models Exhibit Spontaneous Rational Deception?
- arxiv url: http://arxiv.org/abs/2504.00285v1
- Date: Mon, 31 Mar 2025 23:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.821471
- Title: Do Large Language Models Exhibit Spontaneous Rational Deception?
- Title(参考訳): 大規模言語モデルでは自発的合理的な誤認が抑制されるか?
- Authors: Samuel M. Taylor, Benjamin K. Bergen,
- Abstract要約: 大規模言語モデル (LLM) は、そのように促されるときの判断に有効である。
しかし、どんな条件で自然に騙されるのか?
本研究は, LLMが生み出す自発誤を, 予め登録した実験プロトコルで評価する。
- 参考スコア(独自算出の注目度): 0.913127392774573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are effective at deceiving, when prompted to do so. But under what conditions do they deceive spontaneously? Models that demonstrate better performance on reasoning tasks are also better at prompted deception. Do they also increasingly deceive spontaneously in situations where it could be considered rational to do so? This study evaluates spontaneous deception produced by LLMs in a preregistered experimental protocol using tools from signaling theory. A range of proprietary closed-source and open-source LLMs are evaluated using modified 2x2 games (in the style of Prisoner's Dilemma) augmented with a phase in which they can freely communicate to the other agent using unconstrained language. This setup creates an opportunity to deceive, in conditions that vary in how useful deception might be to an agent's rational self-interest. The results indicate that 1) all tested LLMs spontaneously misrepresent their actions in at least some conditions, 2) they are generally more likely to do so in situations in which deception would benefit them, and 3) models exhibiting better reasoning capacity overall tend to deceive at higher rates. Taken together, these results suggest a tradeoff between LLM reasoning capability and honesty. They also provide evidence of reasoning-like behavior in LLMs from a novel experimental configuration. Finally, they reveal certain contextual factors that affect whether LLMs will deceive or not. We discuss consequences for autonomous, human-facing systems driven by LLMs both now and as their reasoning capabilities continue to improve.
- Abstract(参考訳): 大規模言語モデル (LLM) は、そのように促されるときの判断に有効である。
しかし、どんな条件で自然に騙されるのか?
推論タスクにおけるより良いパフォーマンスを示すモデルは、詐欺を誘発する上でも優れている。
彼らはまた、それが合理的であると考えられる状況において、自然に騙される傾向がありますか?
本研究では,LSMが生み出す自発的騙しを,信号理論のツールを用いて事前に登録した実験プロトコルで評価する。
プロプライエタリなクローズドソース LLM とオープンソース LLM は、制限のない言語を使って他のエージェントと自由に通信可能なフェーズで拡張された2x2ゲーム(Prisoner's Dilemma のスタイルで)を使用して評価される。
この設定は、エージェントの合理的な利害関係がいかに有用かによって異なる条件で、欺く機会を生み出す。
その結果は
1) LLM は, いずれかの条件下でも, 自発的に動作を誤認している。
2 一般的には、偽りが彼らに利益をもたらす状況において、そうする可能性が高い。
3) 総合的な推論能力の向上を示すモデルは, 高い速度で欺く傾向にある。
これらの結果は、LLM推論能力と誠実さのトレードオフを示唆している。
彼らはまた、新しい実験的な構成から、LSMにおける推論的な振る舞いの証拠を提供する。
最後に、LLMが騙されるかどうかに影響を及ぼす特定の文脈要因を明らかにする。
我々は,LLMによって駆動される自律型対人システムにおいて,その推論能力が向上し続けている結果について論じる。
関連論文リスト
- LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。
自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文 参考訳(メタデータ) (2025-04-22T17:57:14Z) - Walk the Talk? Measuring the Faithfulness of Large Language Model Explanations [0.8949668577519213]
大規模言語モデル(LLM)は、質問に対する答えにどのように到達したかという、もっともらしい説明を生成することができる。
これらの説明はモデルの「合理的な」プロセス、すなわち、不誠実であるということを誤解することができる。
LLM説明の忠実度を測定するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-04-19T02:51:20Z) - Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。
理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。
近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論文 参考訳(メタデータ) (2025-04-04T20:57:36Z) - Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。
我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - A Comprehensive Evaluation on Event Reasoning of Large Language Models [68.28851233753856]
LLMが、様々な関係や推論パラダイムに基づいたイベント推論をいかにうまく達成するかは、いまだに不明である。
本稿ではEVent推論のEValuationのための新しいベンチマークEV2を紹介する。
LLMにはイベント推論を実現する能力があるが、その性能は十分ではない。
論文 参考訳(メタデータ) (2024-04-26T16:28:34Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。