論文の概要: Hidden in Plain Text: Measuring LLM Deception Quality Against Human Baselines Using Social Deduction Games
- arxiv url: http://arxiv.org/abs/2601.13709v1
- Date: Tue, 20 Jan 2026 08:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.218252
- Title: Hidden in Plain Text: Measuring LLM Deception Quality Against Human Baselines Using Social Deduction Games
- Title(参考訳): 平文に隠れた「社会的推論ゲーム」を用いた人間のベースラインに対するLLM偽装品質の測定
- Authors: Christopher Kao, Vanshika Vats, James Davis,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、多くのアプリケーションでますます使われており、その安全性に対する懸念が高まっている。
マフィアでは,会話を通じて他人を騙すことに成功度が左右される。
我々は GPT-4-Turbo を用いたマフィア検出器を作成し、プレイヤーロール情報なしでゲームスクリプティングを分析し、マフィアプレーヤーを予測する。
その結果,マフィア検出器のマフィア予測精度は人間のゲームよりもLDMゲームの方が低いことがわかった。
- 参考スコア(独自算出の注目度): 4.501547677532766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents are increasingly used in many applications, raising concerns about their safety. While previous work has shown that LLMs can deceive in controlled tasks, less is known about their ability to deceive using natural language in social contexts. In this paper, we study deception in the Social Deduction Game (SDG) Mafia, where success is dependent on deceiving others through conversation. Unlike previous SDG studies, we use an asynchronous multi-agent framework which better simulates realistic social contexts. We simulate 35 Mafia games with GPT-4o LLM agents. We then create a Mafia Detector using GPT-4-Turbo to analyze game transcripts without player role information to predict the mafia players. We use prediction accuracy as a surrogate marker for deception quality. We compare this prediction accuracy to that of 28 human games and a random baseline. Results show that the Mafia Detector's mafia prediction accuracy is lower on LLM games than on human games. The result is consistent regardless of the game days and the number of mafias detected. This indicates that LLMs blend in better and thus deceive more effectively. We also release a dataset of LLM Mafia transcripts to support future research. Our findings underscore both the sophistication and risks of LLM deception in social contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、多くのアプリケーションでますます使われており、その安全性に対する懸念が高まっている。
以前の研究は、LLMが制御されたタスクを騙すことができることを示したが、自然言語を社会的文脈で活用する能力についてはあまり知られていない。
本稿では,社会的誘惑ゲーム(SDG)マフィア(Mafia)における騙しについて検討する。
従来のSDG研究とは異なり、より現実的な社会的文脈をシミュレートする非同期マルチエージェントフレームワークを使用している。
GPT-4o LLMエージェントで35のマフィアゲームをシミュレートする。
次に, GPT-4-Turbo を用いたマフィア検出器を作成し, プレイヤーロール情報なしでゲームスクリプタを解析し, マフィアプレイヤーの予測を行う。
我々は、偽造品質の代理マーカーとして予測精度を用いる。
この予測精度を、28の人間ゲームとランダムなベースラインの予測精度と比較する。
その結果,マフィア検出器のマフィア予測精度は人間のゲームよりもLDMゲームの方が低いことがわかった。
その結果はゲーム日数や検出されたマフィアの数によらず一定である。
このことは、LSMがより良くブレンドされ、より効果的に騙されることを示している。
また、将来の研究を支援するために、LLM Mafia transcripts のデータセットもリリースしている。
社会的文脈におけるLSM偽装の高度化とリスクの両立を図った。
関連論文リスト
- Do You Get the Hint? Benchmarking LLMs on the Board Game Concept [1.671764884922859]
大規模言語モデル(LLM)は多くのベンチマークで大きな成功を収めているが、最近の研究は根本的弱点を明らかにし続けている。
本稿では,自然言語データに近い表現において帰納的推論を探索するためのベンチマークとして,単純な単語ゲースボードゲームであるConceptを紹介する。
以上の結果から,このゲームは人間によって容易に解ける(成功率は90%を超えている)。
論文 参考訳(メタデータ) (2025-10-15T08:17:25Z) - Deceive, Detect, and Disclose: Large Language Models Play Mini-Mafia [0.0]
ミニ・マフィア (Mini-Mafia) は、マフィアが情報のない町民と競う社会的推論ゲームである。
情報の非対称性と、実世界のマルチエージェントシナリオの理論に基づく推論への依存。
ミニマフィア(Mini-Mafia)は、マフィオーソが1つ、探偵が1つ、村人が2つ、簡易な4人組である。
論文 参考訳(メタデータ) (2025-09-27T00:40:19Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。
我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文 参考訳(メタデータ) (2025-05-21T06:02:55Z) - Can Large Language Models Capture Video Game Engagement? [1.3873323883842132]
我々は、ビデオの連続的な影響アノテーションを注釈化し、うまく予測する一般的な大規模言語モデルの能力を包括的に評価する。
我々は, LLMアーキテクチャ, モデルサイズ, 入力モダリティ, プロンプト戦略, エンゲージメント予測に対する接地真理処理法の影響について, 2400以上の実験を行った。
論文 参考訳(メタデータ) (2025-02-05T17:14:47Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay [55.12945794835791]
Avalon をテストベッドとして使用し,システムプロンプトを用いてゲームプレイにおける LLM エージェントの誘導を行う。
本稿では,Avalonに適した新しいフレームワークを提案し,効率的なコミュニケーションと対話を容易にするマルチエージェントシステムを提案する。
その結果、適応エージェントの作成におけるフレームワークの有効性を確認し、動的社会的相互作用をナビゲートするLLMベースのエージェントの可能性を提案する。
論文 参考訳(メタデータ) (2023-10-23T14:35:26Z) - Playing repeated games with Large Language Models [23.57695486747895]
LLMは、人間や他のエージェントと相互作用するアプリケーションでますます使われている。
私たちは異なるLLMに、人間のような戦略と実際の人間プレイヤーで、繰り返し2時間2ドルをプレイさせました。
以上の結果から, LLMは, 反復した囚人のジレンマ家族のような, 利己的なゲームで特に優れていたことが示唆された。
しかし、セクシーズの戦いのような調整を必要とするゲームでは準最適に振る舞う。
論文 参考訳(メタデータ) (2023-05-26T12:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。