論文の概要: 12 Angry AI Agents: Evaluating Multi-Agent LLM Decision-Making Through Cinematic Jury Deliberation
- arxiv url: http://arxiv.org/abs/2605.01986v1
- Date: Sun, 03 May 2026 17:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.031619
- Title: 12 Angry AI Agents: Evaluating Multi-Agent LLM Decision-Making Through Cinematic Jury Deliberation
- Title(参考訳): アングリAIエージェント12選:シネマティック・ジャイ・ディリベレーションによるマルチエージェントLLM意思決定の評価
- Authors: Ahmet Bahaddin Ersoz,
- Abstract要約: RLHFスペクトルの両端を表す2つのモデルが試験された。
18人中17人が絞首刑の陪審で終わる。
映画の中心的な出来事である、徐々に少数派から多数派への説得は、ほとんど起こらない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What if the twelve jurors of Sidney Lumet's 12 Angry Men (1957) were not men, but large language models? Would the one juror who disagrees still be able to change everyone's mind? This paper instantiates that scenario as a multi-agent benchmark for LLM deliberation: twelve agents, each conditioned on a film-faithful persona, debate the film's murder case using multi-agent framework. Two models representing opposite ends of the RLHF spectrum are tested: GPT-4o (closed-source, heavy alignment) and Llama-4-Scout (open-weight, lighter alignment), across three conditions (baseline, open-minded prompt, no initial vote), with N = 3 replications per cell (18 runs total). Three findings emerge. (i) Seventeen of eighteen runs end in a hung jury (a state where the jury fails to reach a unanimous verdict); the film's central event, gradual minority-to-majority persuasion, almost never occurs, indicating that anchoring is the dominant failure mode of current LLMs in this setting. (ii) The two models exhibit sharply different internal dynamics: GPT-4o produces a mean of 1.0 vote changes per run across all conditions, while Llama-4-Scout ranges from 2.0 (baseline) to 6.0 (open-minded prompt), and is the only model to reach a NOT\_GUILTY verdict (1 of 3 runs in the no-initial-vote condition). The same ``open-minded'' instruction is internalized by Llama and ignored by GPT-4o. (iii) This asymmetry suggests that the intensity of RLHF alignment training, not model capability, is the primary determinant of deliberative flexibility in multi-agent settings. Flexibility, not capability, tracks human deliberation. The work is framed as an exploratory study and discusses implications for jury-of-LLMs evaluation and multi-agent debate.
- Abstract(参考訳): シドニー・ルメットの1957年の12人の陪審員が男性ではなく、大きな言語モデルであったとしたらどうだろう?
同意しない陪審員は、まだ全員の心を変えることができるだろうか?
本稿では,このシナリオをLCM検討のためのマルチエージェント・ベンチマークとして,フィルムに忠実なペルソナを条件とした12人のエージェントが,マルチエージェント・フレームワークを用いて映画の殺人事件について議論する。
GPT-4o(クローズドソース、重み付け)とLlama-4-Scout(オープンウェイト、ライトアライメント)の3つの条件(ベースライン、オープンウインド・プロンプト、初期投票なし)の2つのモデルがテストされ、N = 3のセル毎のレプリケーション(合計18回)が実行された。
3つの発見がある。
(i)陪審員の17人は、陪審員が全会一致の評決に達しない状態)に終わる。この映画の中心的な出来事、徐々に少数派から多数派への説得は、ほとんど起こらないことであり、この設定においてアンカーが現在のLLMの圧倒的な失敗モードであることを示している。
2) GPT-4oは、全ての条件で1回平均1.0の投票変更を生成し、Llama-4-Scoutは2.0(ベースライン)から6.0(オープンウインドプロンプト)の範囲であり、NOT\_GUILTYの判定に達する唯一のモデルである。
同じ `open-wise'' 命令は Llama によって内部化され、GPT-4o で無視される。
3) この非対称性は, モデル能力ではなく, RLHFアライメントトレーニングの強度が, マルチエージェント設定における自由度決定の主要因であることを示唆している。
柔軟性は能力ではなく、人間の熟考を追跡する。
この研究は探索的な研究であり、LLMの評価とマルチエージェントの議論に影響を及ぼすことを議論している。
関連論文リスト
- Literary Narrative as Moral Probe : A Cross-System Framework for Evaluating AI Ethical Reasoning and Refusal Behavior [0.0]
既存のAIモラル評価フレームワークは、真のモラル推論能力の存在よりも、正しいサウンドを持つ倫理的応答の生成をテストする。
本稿では,文学的物語を表面性能に対して構造的に耐性のある刺激材料として用いた新しいプローブ手法を提案する。
論文 参考訳(メタデータ) (2026-03-13T03:41:23Z) - The Judge Who Never Admits: Hidden Shortcuts in LLM-based Evaluation [17.386684382460242]
大規模言語モデル(LLM)は、推論、質問応答、創造的記述といったタスクにおけるシステムの出力を評価するために、ますます使われてきている。
6つの判定モデルに対する評価プロンプトに挿入された制御キュー摂動合成メタデータラベルを用いて,この理想を検証した。
情報源,時間,年齢,性別,民族,教育的地位の6つのキュー族を調査する。
論文 参考訳(メタデータ) (2026-02-08T14:45:23Z) - Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。
提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文 参考訳(メタデータ) (2025-12-02T20:52:19Z) - Mitigating Manipulation and Enhancing Persuasion: A Reflective Multi-Agent Approach for Legal Argument Generation [3.99322081587874]
大規模言語モデル(LLM)は、法的議論生成のためにますます研究されている。
幻覚と未解決の説得による操作の重大なリスクを生じさせる。
本稿では,これらの課題に対処するために,新しい反射型マルチエージェント手法を提案する。
論文 参考訳(メタデータ) (2025-06-03T15:28:30Z) - Judging with Many Minds: Do More Perspectives Mean Less Prejudice? On Bias Amplifications and Resistance in Multi-Agent Based LLM-as-Judge [70.89799989428367]
我々は、位置バイアス、冗長性バイアス、チェーンオブ思考バイアス、バンドワゴンバイアスの4つの多様なバイアスタイプを体系的に分析する。
広く採用されているマルチエージェントLLM-as-JudgeフレームワークであるMulti-Agent-DebateとLLM-as-Meta-Judgeでこれらのバイアスを評価する。
論文 参考訳(メタデータ) (2025-05-26T03:56:41Z) - When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。
1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。
信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文 参考訳(メタデータ) (2025-04-01T02:45:02Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。