Fugu-MT 論文翻訳(概要): Do as We Do, Not as You Think: the Conformity of Large Language Models

論文の概要: Do as We Do, Not as You Think: the Conformity of Large Language Models

arxiv url: http://arxiv.org/abs/2501.13381v1
Date: Thu, 23 Jan 2025 04:50:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:07.177429
Title: Do as We Do, Not as You Think: the Conformity of Large Language Models
Title（参考訳）: 私たちがしているように、あなたが考えるとおりではない:大規模言語モデルの整合性
Authors: Zhiyuan Weng, Guikun Chen, Wenguan Wang,
Abstract要約: 本稿では,大規模言語モデル(LLM)による協調型AIシステムにおける適合性について述べる。適合性の存在、適合性に影響を与える要因、潜在的な緩和戦略の3つの側面に焦点を当てる。本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。
参考スコア（独自算出の注目度）: 46.23852835759767
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models (LLMs) revolutionize the field of intelligent agents, enabling collaborative multi-agent systems capable of tackling complex problems across various domains. However, the potential of conformity within these systems, analogous to phenomena like conformity bias and groupthink in human group dynamics, remains largely unexplored, raising concerns about their collective problem-solving capabilities and possible ethical implications. This paper presents a comprehensive study on conformity in LLM-driven multi-agent systems, focusing on three aspects: the existence of conformity, the factors influencing conformity, and potential mitigation strategies. In particular, we introduce BenchForm, a new conformity-oriented benchmark, featuring reasoning-intensive tasks and five distinct interaction protocols designed to probe LLMs' behavior in collaborative scenarios. Several representative LLMs are evaluated on BenchForm, using metrics such as conformity rate and independence rate to quantify conformity's impact. Our analysis delves into factors influencing conformity, including interaction time and majority size, and examines how the subject agent rationalizes its conforming behavior. Furthermore, we explore two strategies to mitigate conformity effects, i.e., developing enhanced personas and implementing a reflection mechanism. Several interesting findings regarding LLMs' conformity are derived from empirical results and case studies. We hope that these insights can pave the way for more robust and ethically-aligned collaborative AI systems. Our benchmark and code are available at BenchForm.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、知的エージェントの分野に革命をもたらし、様々な領域にまたがる複雑な問題に対処できる協調型マルチエージェントシステムを実現している。しかしながら、これらのシステム内の適合性の可能性は、人間のグループ力学における整合性バイアスやグループ思考のような現象に類似しており、その集合的な問題解決能力や倫理的含意について懸念を抱いている。本稿では, LLM駆動型マルチエージェントシステムにおける適合性に関する包括的研究を行い, 適合性の存在, 適合性に影響を与える要因, 潜在的な緩和戦略の3つの側面に着目した。特に,新しい整合性指向型ベンチマークであるBenchFormを導入し,推論集約型タスクと,協調シナリオにおけるLLMの振る舞いを探索する5つの異なるインタラクションプロトコルを特徴とする。いくつかの代表的なLCMをBenchForm上で評価し、適合性の影響を定量化するために、適合性率や独立性率などの指標を用いて評価する。本分析では, 相互作用時間や過半数サイズなど, 適合性に影響を与える要因を解明し, 対象エージェントが適合行動をどのように合理化するかを検討する。さらに、コンフォーマンス効果を緩和する2つの戦略、すなわち、強化されたペルソナを開発し、リフレクション機構を実装する。 LLMsの適合性に関するいくつかの興味深い発見は、経験的結果とケーススタディから導かれる。これらの洞察が、より堅牢で倫理的に整合したAIシステムへの道を開くことを願っている。ベンチマークとコードはBenchFormで利用可能です。

関連論文リスト

DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文参考訳（メタデータ） (2025-07-31T13:42:14Z)
Herd Behavior: Investigating Peer Influence in LLM-based Multi-Agent Systems [7.140644659869317]
大規模言語モデル(LLM)に基づくマルチエージェントシステムにおけるピアの影響のダイナミクスについて検討する。自己自信と他者に対する信頼感のギャップは,エージェントが適合する可能性に大きな影響を及ぼすことを示す。群集行動の強さを調節する上で,ピア情報提示形式が重要な役割を担っていることがわかった。
論文参考訳（メタデータ） (2025-05-27T12:12:56Z)
Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文参考訳（メタデータ） (2025-05-19T14:50:44Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
Review of Case-Based Reasoning for LLM Agents: Theoretical Foundations, Architectural Components, and Cognitive Integration [0.0]
ケースベース推論(CBR)は、過去の経験を参照することによって、新しい問題を解決する戦略である。本稿では、過去の経験を参照して新しい問題を解決する戦略であるケースベース推論(CBR)を大規模言語モデルに組み込む方法について考察する。
論文参考訳（メタデータ） (2025-04-09T14:51:02Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Agentic LLM Framework for Adaptive Decision Discourse [2.4919169815423743]
本研究では,実世界のエージェント型大規模言語モデル(LLM)フレームワークを紹介する。従来の意思決定支援ツールとは異なり、このフレームワークは対話、トレードオフ探索、エージェント間の相互作用によって生成される創発的なシナジーを強調している。その結果、第1次探索がいかに堅牢で公平なレコメンデーションパスを育むかが明らかとなった。
論文参考訳（メタデータ） (2025-02-16T03:46:37Z)
Reflection-Bench: Evaluating Epistemic Agency in Large Language Models [10.801745760525838]
疫学エージェンシーは動的環境に関する信念を柔軟に構築し、適応し、監視する能力である。リフレクション・ベンチ(Reflection-Bench)は,データ漏洩の長期的関連性と最小化を伴う7つのタスクからなるベンチマークである。本研究は, コア認知機能の向上, クロスファンクショナルコーディネートの改善, 適応処理機構の開発など, 有望な研究の方向性を示唆する。
論文参考訳（メタデータ） (2024-10-21T17:59:50Z)
Conformity in Large Language Models [26.963909402233213]
誤った応答に対する整合性は、言語モデルの有効性を損なう可能性がある。我々は心理実験に適応し、最先端言語モデルにおける適合度について検討する。私たちは、LSMが彼ら自身の予測でより不確実である場合に、より適合する可能性が高いことを示す最初の人です。
論文参考訳（メタデータ） (2024-10-16T10:16:34Z)
Cooperative Resilience in Artificial Intelligence Multiagent Systems [2.0608564715600273]
本稿では, 協調レジリエンスの明確な定義とその定量化手法を提案する。その結果は、集団システムが破壊に直面してどのように準備し、抵抗し、回復し、幸福を維持し、変革するかを分析する上で、レジリエンス指標の重要な役割を強調している。
論文参考訳（メタデータ） (2024-09-20T03:28:48Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文参考訳（メタデータ） (2023-12-08T06:22:12Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
The Machine Psychology of Cooperation: Can GPT models operationalise prompts for altruism, cooperation, competitiveness and selfishness in economic games? [0.0]
GPT-3.5大言語モデル(LLM)を用いて,協調的,競争的,利他的,利己的行動の自然言語記述を操作可能とした。被験者と実験心理学研究で用いられるのと同様のプロトコルを用いて,課題環境を記述するためのプロンプトを用いた。この結果から,LLM が様々な協調姿勢の自然言語記述を適切な作業行動の記述にある程度翻訳できることが示唆された。
論文参考訳（メタデータ） (2023-05-13T17:23:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。