論文の概要: Cattle Trade: A Multi-Agent Benchmark for LLM Bluffing, Bidding, and Bargaining
- arxiv url: http://arxiv.org/abs/2605.14537v1
- Date: Thu, 14 May 2026 08:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.709085
- Title: Cattle Trade: A Multi-Agent Benchmark for LLM Bluffing, Bidding, and Bargaining
- Title(参考訳): 牛肉取引: LLMブラッフィング, ビディング, バリ取りのためのマルチエージェントベンチマーク
- Authors: Robert Müller, Clemens Müller,
- Abstract要約: 我々は,大規模言語モデル(LLM)を戦略的推論のエージェントとして評価するためのベンチマークであるtextscCattle Tradeを紹介した。
このベンチマークは、1つのロングホライゾンゲーム内でのオークション、隠れオフのトレードチャレンジ(TC)、バーゲティング、ブラッフィング、相手モデリング、リソース割り当てを組み合わせたものだ。
我々は,242ゲームに対して,コスト効率のよい7つの言語モデルと3つの決定論的コードエージェントを評価した。
- 参考スコア(独自算出の注目度): 0.5691230599672109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \textsc{Cattle Trade, a multi-agent benchmark for evaluating large language models (LLMs) as agents in strategic reasoning under imperfect information, adversarial interaction, and resource constraints. The benchmark combines auctions, hidden-offer trade challenges (TCs), bargaining, bluffing, opponent modeling, and resource allocation within a single long-horizon game lasting 50--60 turns. Unlike prior agent benchmarks that test these abilities in isolation, \textsc{Cattle Trade} evaluates whether agents integrate them across a competitive, multi-agent economic game with conflicting incentives. The benchmark logs every bid, TC offer, counteroffer, and card selection, enabling behavioural analysis beyond final scores or win rates. We evaluate seven cost-efficient language models and three deterministic code agents across 242 games. Strategic coherence, in particular spending efficiency, resource discipline, and phase-adaptive bidding, is associated with rank more strongly than spending volume or any single subskill. Two heuristic code agents outperform most tested LLMs, and behavioural traces surface recurring LLM failure modes including overbidding, self-bidding, bankrupt TC initiation, and weak opponent-state adaptation. Evaluating agentic competence requires benchmarks that test the joint deployment of multiple capabilities in multi-agent environments with conflicting incentives, uncertainty, and economic dynamics.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) を評価するマルチエージェントベンチマークである \textsc{Cattle Trade を紹介する。
このベンチマークは、競売、隠しオフ・トレード・チャレンジ(TC)、バーゲティング、ブラッフィング、対戦相手モデリング、そして50-60ターン続く1つのロングホライゾンゲーム内のリソース割り当てを組み合わせたものである。
これらの能力を個別にテストする以前のエージェントベンチマークとは異なり、 \textsc{Cattle Trade} はエージェントが競争力のあるマルチエージェント経済ゲームと矛盾するインセンティブでそれらを統合するかどうかを評価する。
ベンチマークは、TCが提供するすべての入札、カウンターオフ、カードの選択を記録し、最終的なスコアや勝利率を超えた行動分析を可能にする。
我々は,242ゲームに対して,コスト効率のよい7つの言語モデルと3つの決定論的コードエージェントを評価した。
戦略的コヒーレンス、特に消費効率、資源の規律、フェーズ適応入札は、消費量やどのサブスキルよりも強いランクと結びついている。
2つのヒューリスティックなコードエージェントは、最もテストされたLLMよりも優れており、動作トレースは、過剰行為、自己複製、倒産したTC開始、弱い反対状態適応を含むLCMの障害モードを繰り返す。
エージェント能力の評価には、矛盾するインセンティブ、不確実性、経済力学を伴うマルチエージェント環境における複数の機能の共同展開をテストするベンチマークが必要である。
関連論文リスト
- TERMS-Bench: Diagnosing LLM Negotiation Agents Beyond Deal Rate [34.67393151003599]
交渉はエージェント言語モデルのための標準的なテストベッドである。
数学やコードとは異なり、本質的な検証がない。
本稿では,環境自体を検証対象とするベイズゲームフレームワークであるTerms-Benchを紹介する。
論文 参考訳(メタデータ) (2026-05-13T06:22:50Z) - Training Language Models for Bilateral Trade with Private Information [47.25254982913256]
貿易の利益を達成するためには、個人、戦略的余剰の合理性、協力が必要である。
本研究では,大規模言語モデルがイベント駆動シミュレータ内のツールコールを介して交渉する構造化交渉環境を開発する。
この環境は、フロンティアモデルのベンチマークと、強化学習によるオープンウェイトモデルのトレーニング環境という2つの目的を果たす。
論文 参考訳(メタデータ) (2026-04-10T03:04:20Z) - AgenticPay: A Multi-Agent LLM Negotiation System for Buyer-Seller Transactions [49.49718899185783]
大規模言語モデル(LLM)ベースのエージェントは、自律的に交渉、コーディネート、トランザクショナル化がますます期待されている。
本稿では,自然言語によるマルチエージェント・バイヤー・セラー交渉のためのベンチマークおよびシミュレーションフレームワークであるAgenticPayを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:50:36Z) - Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z) - Multi-Agent Reinforcement Learning for Market Making: Competition without Collusion [6.598173855286935]
市場形成におけるアルゴリズム的共謀を研究するための階層型多エージェント強化学習フレームワークを提案する。
このフレームワークは、敵が形作る不確実な環境で訓練される自己関心の市場メーカー(AgentA)を含む。
適応型インセンティブ制御は、異種エージェント環境におけるより持続可能な戦略的共存を支援する。
論文 参考訳(メタデータ) (2025-10-29T20:07:47Z) - EmoDebt: Bayesian-Optimized Emotional Intelligence for Strategic Agent-to-Agent Debt Recovery [65.30120701878582]
大規模言語モデル(LLM)エージェントは、負債収集のような感情に敏感なドメインの悪用に対して脆弱である。
EmoDebtは、ネゴシエーションにおける感情を表現するモデルの能力を、シーケンシャルな意思決定問題として再設計する感情インテリジェンスエンジンである。
EmoDebtは重要な戦略的堅牢性を実現し、非適応性と感情に依存しないベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-27T01:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。