論文の概要: Do as We Do, Not as You Think: the Conformity of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.13381v1
- Date: Thu, 23 Jan 2025 04:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:32.435747
- Title: Do as We Do, Not as You Think: the Conformity of Large Language Models
- Title(参考訳): 私たちがしているように、あなたが考えるとおりではない:大規模言語モデルの整合性
- Authors: Zhiyuan Weng, Guikun Chen, Wenguan Wang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)による協調型AIシステムにおける適合性について述べる。
適合性の存在、適合性に影響を与える要因、潜在的な緩和戦略の3つの側面に焦点を当てる。
本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。
- 参考スコア(独自算出の注目度): 46.23852835759767
- License:
- Abstract: Recent advancements in large language models (LLMs) revolutionize the field of intelligent agents, enabling collaborative multi-agent systems capable of tackling complex problems across various domains. However, the potential of conformity within these systems, analogous to phenomena like conformity bias and groupthink in human group dynamics, remains largely unexplored, raising concerns about their collective problem-solving capabilities and possible ethical implications. This paper presents a comprehensive study on conformity in LLM-driven multi-agent systems, focusing on three aspects: the existence of conformity, the factors influencing conformity, and potential mitigation strategies. In particular, we introduce BenchForm, a new conformity-oriented benchmark, featuring reasoning-intensive tasks and five distinct interaction protocols designed to probe LLMs' behavior in collaborative scenarios. Several representative LLMs are evaluated on BenchForm, using metrics such as conformity rate and independence rate to quantify conformity's impact. Our analysis delves into factors influencing conformity, including interaction time and majority size, and examines how the subject agent rationalizes its conforming behavior. Furthermore, we explore two strategies to mitigate conformity effects, i.e., developing enhanced personas and implementing a reflection mechanism. Several interesting findings regarding LLMs' conformity are derived from empirical results and case studies. We hope that these insights can pave the way for more robust and ethically-aligned collaborative AI systems. Our benchmark and code are available at BenchForm.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、知的エージェントの分野に革命をもたらし、様々な領域にまたがる複雑な問題に対処できる協調型マルチエージェントシステムを実現している。
しかしながら、これらのシステム内の適合性の可能性は、人間のグループ力学における整合性バイアスやグループ思考のような現象に類似しており、その集合的な問題解決能力や倫理的含意について懸念を抱いている。
本稿では, LLM駆動型マルチエージェントシステムにおける適合性に関する包括的研究を行い, 適合性の存在, 適合性に影響を与える要因, 潜在的な緩和戦略の3つの側面に着目した。
特に,新しい整合性指向型ベンチマークであるBenchFormを導入し,推論集約型タスクと,協調シナリオにおけるLLMの振る舞いを探索する5つの異なるインタラクションプロトコルを特徴とする。
いくつかの代表的なLCMをBenchForm上で評価し、適合性の影響を定量化するために、適合性率や独立性率などの指標を用いて評価する。
本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。
さらに、コンフォーマンス効果を緩和する2つの戦略、すなわち、強化されたペルソナを開発し、リフレクション機構を実装する。
LLMsの適合性に関するいくつかの興味深い発見は、経験的結果とケーススタディから導かれる。
これらの洞察が、より堅牢で倫理的に整合したAIシステムへの道を開くことを願っている。
ベンチマークとコードはBenchFormで利用可能です。
関連論文リスト
- Conformity in Large Language Models [26.963909402233213]
誤った応答に対する整合性は、言語モデルの有効性を損なう可能性がある。
我々は心理実験に適応し、最先端言語モデルにおける適合度について検討する。
私たちは、LSMが彼ら自身の予測でより不確実である場合に、より適合する可能性が高いことを示す最初の人です。
論文 参考訳(メタデータ) (2024-10-16T10:16:34Z) - Cooperative Resilience in Artificial Intelligence Multiagent Systems [2.0608564715600273]
本稿では, 協調レジリエンスの明確な定義とその定量化手法を提案する。
その結果は、集団システムが破壊に直面してどのように準備し、抵抗し、回復し、幸福を維持し、変革するかを分析する上で、レジリエンス指標の重要な役割を強調している。
論文 参考訳(メタデータ) (2024-09-20T03:28:48Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Persona Inconstancy in Multi-Agent LLM Collaboration: Conformity, Confabulation, and Impersonation [16.82101507069166]
マルチエージェントAIシステムは、科学的および実践的な応用において、集合的な意思決定をシミュレートするために使用することができる。
我々は、相互協力や議論に携わるAIエージェントのアンサンブルについて、個人の反応やチャットの書き起こしを分析して検討する。
以上の結果から,複数エージェントによる議論が,多面的な視点を反映する集合的AI決定を支援することが示唆された。
論文 参考訳(メタデータ) (2024-05-06T21:20:35Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。