論文の概要: Deceive, Detect, and Disclose: Large Language Models Play Mini-Mafia
- arxiv url: http://arxiv.org/abs/2509.23023v1
- Date: Sat, 27 Sep 2025 00:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.989954
- Title: Deceive, Detect, and Disclose: Large Language Models Play Mini-Mafia
- Title(参考訳): 認識、検出、開示: 大規模言語モデルはミニマフィアを再生する
- Authors: Davi Bastos Costa, Renato Vicente,
- Abstract要約: ミニ・マフィア (Mini-Mafia) は、マフィアが情報のない町民と競う社会的推論ゲームである。
情報の非対称性と、実世界のマルチエージェントシナリオの理論に基づく推論への依存。
ミニマフィア(Mini-Mafia)は、マフィオーソが1つ、探偵が1つ、村人が2つ、簡易な4人組である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mafia is a social deduction game where informed mafia compete against uninformed townsfolk. Its asymmetry of information and reliance on theory-of-mind reasoning mirror real-world multi-agent scenarios, making it a useful testbed for evaluating the social intelligence of large language models (LLMs). To support a systematic study, we introduce Mini-Mafia: a simplified four-player variant with one mafioso, one detective, and two villagers. We set the mafioso to kill a villager and the detective to investigate the mafioso during the night, reducing the game to a single day phase of discussion and voting. This setup isolates three interactive capabilities through role-specific win conditions: the mafioso must deceive, the villagers must detect deception, and the detective must effectively disclose information. To measure these skills, we have LLMs play against each other, creating the Mini-Mafia Benchmark: a two-stage framework that first estimates win rates within fixed opponent configurations, then aggregates performance across them using standardized scoring. Built entirely from model interactions without external data, the benchmark evolves as new models are introduced, with each one serving both as a new opponent and as a subject of evaluation. Our experiments reveal counterintuitive results, including cases where smaller models outperform larger ones. Beyond benchmarking, Mini-Mafia enables quantitative study of emergent multi-agent dynamics such as name bias and last-speaker advantage. It also contributes to AI safety by generating training data for deception detectors and by tracking models' deception capabilities against human baselines.
- Abstract(参考訳): マフィア(Mafia)は、マフィアが情報のない町民と競う、社会的推論ゲームである。
情報の非対称性と、実世界のマルチエージェントシナリオに頼っているため、大きな言語モデル(LLM)の社会的知性を評価するのに有用なテストベッドとなっている。
体系的な研究を支援するために,ミニマフィア (Mini-Mafia) を導入した。
我々はマフィオを村人や刑事を殺すように設定し、夜の間にマフィオを調査し、試合を一日の議論と投票の段階に短縮した。
マフィオソは騙され、村人は騙され、刑事は情報を効果的に開示する必要がある。
これらのスキルを測るために、私たちはLLMを互いに対戦させ、Mini-Mafia Benchmarkという2段階のフレームワークを作成しました。
外部データを持たないモデルインタラクションから完全に構築されたこのベンチマークは、新しいモデルが導入されるにつれて進化し、それぞれが新しい相手として、そして評価の対象として機能する。
実験の結果、より小さなモデルの方が大きなモデルより優れている場合など、直感に反する結果が得られた。
ベンチマーク以外にも、Mini-Mafiaは名前バイアスやラストスピーカーの利点といった創発的マルチエージェントのダイナミクスを定量的に研究することができる。
また、騙し検知器のトレーニングデータを生成し、人間のベースラインに対するモデルの騙し能力を追跡することで、AIの安全性にも貢献する。
関連論文リスト
- Who's the Evil Twin? Differential Auditing for Undesired Behavior [0.6524460254566904]
赤いチームは2つの類似したモデルをトレーニングします。1つは良性データのみをトレーニングし、もう1つは隠れた有害な振る舞いを含むデータに基づいてトレーニングします。
我々は、CNNを用いて、ガウスノイズ分析、モデル拡散、統合勾配、敵攻撃など、様々なブルーチーム戦略を試す。
その結果、敵攻撃に基づく手法(100%正解、ヒントを用いた予測)の精度が高く、非常に有望であることがわかった。
論文 参考訳(メタデータ) (2025-08-09T04:57:38Z) - Nicer Than Humans: How do Large Language Models Behave in the Prisoner's Dilemma? [0.1474723404975345]
複数レベルの敵意を示すランダムな敵に対する反復的囚人ジレンマの演奏におけるLlama2の協調行動について検討した。
Llama2は欠陥を起こさない傾向にあるが、協調に慎重なアプローチを採用する。
ヒトの参加者に関する以前の研究と比較すると、Llama2は協調行動に対するより強い傾きを示す。
論文 参考訳(メタデータ) (2024-06-19T14:51:14Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Putting the Con in Context: Identifying Deceptive Actors in the Game of
Mafia [4.215251065887862]
マフィアゲームを通して話者の役割が言語利用に与える影響を分析する。
分類モデルにより, 偽装選手を正直な者よりも疑わしい者としてランク付けできることを示す。
トレーニングされたモデルを用いてプレイヤーの役割を区別する特徴を識別する手法を提案する。
論文 参考訳(メタデータ) (2022-07-05T18:29:27Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。