論文の概要: Reproducibility Study of Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation
- arxiv url: http://arxiv.org/abs/2502.16242v1
- Date: Sat, 22 Feb 2025 14:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:35.058426
- Title: Reproducibility Study of Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation
- Title(参考訳): 協力, 競争, 悪意の再現性に関する研究: LLM-Stakeholders Interactive Negotiation
- Authors: Jose L. Garcia, Karolina Hajkova, Maria Marchenko, Carlos Miguel Patiño,
- Abstract要約: 様々なオープンウェイトモデルを用いて,元の知見を検証した。
本稿では,エージェント間相互作用を伴わずに交渉を成功させるかどうかを検証するためのコミュニケーションフリーのベースラインを提案する。
この研究は、LLMベースの交渉システムのアクセシビリティ、公正性、環境への影響、およびプライバシーに関する考察も提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents a reproducibility study and extension of "Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation." We validate the original findings using a range of open-weight models (1.5B-70B parameters) and GPT-4o Mini while introducing several novel contributions. We analyze the Pareto front of the games, propose a communication-free baseline to test whether successful negotiations are possible without agent interaction, evaluate recent small language models' performance, analyze structural information leakage in model responses, and implement an inequality metric to assess negotiation fairness. Our results demonstrate that smaller models (<10B parameters) struggle with format adherence and coherent responses, but larger open-weight models can approach proprietary model performance. Additionally, in many scenarios, single-agent approaches can achieve comparable results to multi-agent negotiations, challenging assumptions about the necessity of agent communication to perform well on the benchmark. This work also provides insights into the accessibility, fairness, environmental impact, and privacy considerations of LLM-based negotiation systems.
- Abstract(参考訳): 本稿では, LLM-Stakeholders Interactive Negotiation の再現性と "Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation" の拡張について述べる。
オープンウェイトモデル (1.5B-70Bパラメータ) と GPT-4o Mini を用いて, 新たなコントリビューションを導入しながら, 実験結果の検証を行った。
ゲーム前部を解析し,エージェント間相互作用なしに交渉を成功させるかどうかを検証するためのコミュニケーションフリーベースラインを提案し,最近の小言語モデルの性能を評価し,モデル応答における構造情報漏洩を分析し,交渉の公平性を評価するための不平等な指標を実装した。
以上の結果から,より小さなモデル (10B パラメータ) は形式順守やコヒーレントな応答に苦しむが,より大きなオープンウェイトモデルではプロプライエタリなモデル性能にアプローチできることが示された。
さらに、多くのシナリオにおいて、シングルエージェントアプローチはマルチエージェント交渉に匹敵する結果が得られる。
この研究は、LLMベースの交渉システムのアクセシビリティ、公正性、環境への影響、およびプライバシーに関する考察も提供する。
関連論文リスト
- LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate [24.92465108034783]
大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。
敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
論文 参考訳(メタデータ) (2024-06-20T20:09:37Z) - Are LLMs Effective Negotiators? Systematic Evaluation of the Multifaceted Capabilities of LLMs in Negotiation Dialogues [4.738985706520995]
本研究の目的は,多様な対話シナリオにまたがるLLMの多面的特徴を体系的に解析することである。
本分析では,GPT-4の課題を特定しながら,多くのタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-21T06:11:03Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Evaluating Language Model Agency through Negotiations [39.87262815823634]
ネゴシエーションゲームにより、マルチターン、クロスモデル相互作用、複雑性の変調、およびサイドステップの偶発的データ漏洩を研究できる。
提案手法は,広く使用されている6つのLMをテストし,セルフプレイとクロスプレイの両方で性能とアライメントを評価する。
論文 参考訳(メタデータ) (2024-01-09T13:19:37Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - Learnable Strategies for Bilateral Agent Negotiation over Multiple
Issues [6.12762193927784]
本稿では,利己的なエージェントが複数の問題に対する交渉の仕方を学ぶことのできる,新たな二国間交渉モデルを提案する。
このモデルは、交渉中にエージェントが使うべき戦術を表す解釈可能な戦略テンプレートに依存している。
テンプレートパラメータを学習し、複数の交渉で受け取った平均効用を最大化し、最適な入札受理と生成をもたらす。
論文 参考訳(メタデータ) (2020-09-17T13:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。