論文の概要: LLM Agents for Bargaining with Utility-based Feedback
- arxiv url: http://arxiv.org/abs/2505.22998v1
- Date: Thu, 29 May 2025 02:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.623242
- Title: LLM Agents for Bargaining with Utility-based Feedback
- Title(参考訳): 実用性に基づくフィードバックによる取引のためのLLMエージェント
- Authors: Jihwan Oh, Murad Aghazada, Se-Young Yun, Taehyeon Kim,
- Abstract要約: ユーティリティベースのフィードバックを中心とした包括的フレームワークを導入する。
1)新しいベンチマークデータセットであるBargainArena,(2)ユーティリティ理論にインスパイアされた人力による経済的な評価指標,(3)LCMを反復的にバリ取り戦略を洗練させる構造的フィードバックメカニズムである。
- 参考スコア(独自算出の注目度): 23.357706450282002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bargaining, a critical aspect of real-world interactions, presents challenges for large language models (LLMs) due to limitations in strategic depth and adaptation to complex human factors. Existing benchmarks often fail to capture this real-world complexity. To address this and enhance LLM capabilities in realistic bargaining, we introduce a comprehensive framework centered on utility-based feedback. Our contributions are threefold: (1) BargainArena, a novel benchmark dataset with six intricate scenarios (e.g., deceptive practices, monopolies) to facilitate diverse strategy modeling; (2) human-aligned, economically-grounded evaluation metrics inspired by utility theory, incorporating agent utility and negotiation power, which implicitly reflect and promote opponent-aware reasoning (OAR); and (3) a structured feedback mechanism enabling LLMs to iteratively refine their bargaining strategies. This mechanism can positively collaborate with in-context learning (ICL) prompts, including those explicitly designed to foster OAR. Experimental results show that LLMs often exhibit negotiation strategies misaligned with human preferences, and that our structured feedback mechanism significantly improves their performance, yielding deeper strategic and opponent-aware reasoning.
- Abstract(参考訳): 実世界の相互作用の重要な側面であるバルゲングは、戦略的な深さの制限と複雑な人間の要因への適応のために、大きな言語モデル(LLM)の課題を提示している。
既存のベンチマークは、この現実世界の複雑さを捉えるのに失敗することが多い。
現実的な交渉において、この問題に対処し、LLM機能を向上するために、ユーティリティベースのフィードバックを中心とした包括的なフレームワークを導入する。
筆者らのコントリビューションは, 多様な戦略モデリングを促進するための, 6つの複雑なシナリオ(例えば, 偽りの実践, モノポリス)を持つ新しいベンチマークデータセットであるBargainArena, 2) 効用理論にインスパイアされた, エージェントの効用と交渉力を取り入れ, 暗黙的に対人意識推論(OAR)を反映し促進する, (3) LLMが反復的に交渉戦略を洗練させる構造的フィードバック機構である。
このメカニズムは、OARを育むために明示的に設計されたものを含め、ICL(In-context Learning)プロンプトと積極的に協調することができる。
実験結果から,LLMは人間の嗜好に反する交渉戦略を示すことが多く,構造化されたフィードバック機構によってその性能が大幅に向上し,より戦略的かつ敵対的な推論がもたらされることが示唆された。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。