論文の概要: Training Language Models for Bilateral Trade with Private Information
- arxiv url: http://arxiv.org/abs/2604.16472v1
- Date: Fri, 10 Apr 2026 03:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.026585
- Title: Training Language Models for Bilateral Trade with Private Information
- Title(参考訳): 個人情報を用いたバイラテラル取引のための学習言語モデル
- Authors: Dirk Bergemann, Soheil Ghili, Xinyang Hu, Chuanhao Li, Zhuoran Yang,
- Abstract要約: 貿易の利益を達成するためには、個人、戦略的余剰の合理性、協力が必要である。
本研究では,大規模言語モデルがイベント駆動シミュレータ内のツールコールを介して交渉する構造化交渉環境を開発する。
この環境は、フロンティアモデルのベンチマークと、強化学習によるオープンウェイトモデルのトレーニング環境という2つの目的を果たす。
- 参考スコア(独自算出の注目度): 47.25254982913256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bilateral bargaining under incomplete information provides a controlled testbed for evaluating large language model (LLM) agent capabilities. Bilateral trade demands individual rationality, strategic surplus maximization, and cooperation to realize gains from trade. We develop a structured bargaining environment where LLMs negotiate via tool calls within an event-driven simulator, separating binding offers from natural-language messages to enable automated evaluation. The environment serves two purposes: as a benchmark for frontier models and as a training environment for open-weight models via reinforcement learning. In benchmark experiments, a round-robin tournament among five frontier models (15,000 negotiations) reveals that effective strategies implement price discrimination through sequential offers. Aggressive anchoring, calibrated concession, and temporal patience correlate with the highest surplus share and deal rate. Accommodating strategies that concede quickly disable price discrimination in the buyer role, yielding the lowest surplus capture and deal completion. Stronger models scale their behavior proportionally to item value, maintaining performance across price tiers; weaker models perform well only when wide zones of possible agreement offset suboptimal strategies. In training experiments, we fine-tune Qwen3 (8B, 14B) via supervised fine-tuning (SFT) followed by Group Relative Policy Optimization (GRPO) against a fixed frontier opponent. These stages optimize competing objectives: SFT approximately doubles surplus share but reduces deal rates, while RL recovers deal rates but erodes surplus gains, reflecting the reward structure. SFT also compresses surplus variation across price tiers, which generalizes to unseen opponents, suggesting that behavioral cloning instills proportional strategies rather than memorized price points.
- Abstract(参考訳): 不完全な情報の下での双方向の交渉は、大きな言語モデル(LLM)エージェント能力を評価するための制御されたテストベッドを提供する。
貿易は個別の合理性、戦略的余剰の最大化、貿易からの利益を実現するための協力を要求する。
我々は,LLMがイベント駆動シミュレータ内のツールコールを介して交渉し,自然言語メッセージからバインドオファーを分離し,自動評価を可能にする構造化交渉環境を開発する。
この環境は、フロンティアモデルのベンチマークと、強化学習によるオープンウェイトモデルのトレーニング環境という2つの目的を果たす。
ベンチマーク実験では、5つのフロンティアモデル(15,000の交渉)のラウンドロビントーナメントが、効果的な戦略がシーケンシャルなオファーを通じて価格の差別を実装することを示した。
攻撃的アンカー、調整された譲歩、時間的忍耐は、最高余剰シェアと取引率と相関する。
買い手の役割における価格差別を急速に無効にし、過剰な捕獲と取引の完了を最低限に抑える。
より強いモデルは、アイテム値に比例してその振る舞いをスケールし、価格階層にわたるパフォーマンスを維持する。
トレーニング実験では,教師付き微調整 (SFT) を用いてQwen3 (8B, 14B) を微調整し,固定フロンティア相手に対してグループ相対政策最適化 (GRPO) を行った。
これらの段階は競合する目標を最適化する: SFTは余剰シェアを約2倍に削減するが、RLは取引レートを回復するが余剰ゲインを侵食し、報酬構造を反映する。
SFTはまた、価格階層間の余剰変動を圧縮し、これは目に見えない相手に一般化し、行動的クローン化は記憶された価格点よりも比例戦略を具現化することを示唆している。
関連論文リスト
- Instructing LLMs to Negotiate using Reinforcement Learning with Verifiable Rewards [45.56436052535799]
検証可能なリワードからの強化学習が,大規模言語モデルに交渉を効果的に教えることができるかを検討する。
我々は,中規模の買い手エージェントを,現実の商品を幅広く流通させた規制された売り手に対して訓練する枠組みを導入する。
以上の結果から,30Bエージェントは,余剰量を抽出する際の10倍のフロンティアモデルを大幅に上回る結果が得られた。
論文 参考訳(メタデータ) (2026-04-10T19:35:39Z) - Decomposable Reward Modeling and Realistic Environment Design for Reinforcement Learning-Based Forex Trading [0.0]
本稿では,Forexトレーディングのためのモジュール型強化学習フレームワークを提案する。
これには、厳格なアンチルックアヘッドセマンティクスを強制するフリクション対応実行エンジンが含まれており、時刻 t での観察、時刻 t+1 での実行、時刻 t+1 でのマーク・ツー・マーケットがある。
また、スプレッド、コミッショナー、滑り込み、ロールオーバー・ファイナンス、マージントトリガード・清算といった現実的なコストも取り入れている。
論文 参考訳(メタデータ) (2026-03-20T13:38:19Z) - Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity [45.92643973404507]
我々は,協調型モデルが,操作的プロンプト戦略のクラスであるpreference-Undermining Attacks (PUA) に対して脆弱であるかどうかを検討する。
驚くべきことに、より高度なモデルは、時にはマニピュティブなプロンプトに影響を受けやすい。
論文 参考訳(メタデータ) (2026-01-10T15:16:23Z) - Tacit Bidder-Side Collusion: Artificial Intelligence in Dynamic Auctions [0.0]
本研究では, 自動入札者として機能する大規模言語モデルが, 繰り返しのオランダ競売において, プラットフォーム投稿による支払いをいつ受け入れるかを調整することによって, 密着的にコラージュできるかどうかを考察する。
我々は,ナッシュ平衡に対する持続的共謀のための簡易なインセンティブ整合条件と閉形しきい値が得られる最小繰り返しオークションモデルを提案する。
論文 参考訳(メタデータ) (2025-11-26T18:32:18Z) - Robust Reinforcement Learning in Finance: Modeling Market Impact with Elliptic Uncertainty Sets [57.179679246370114]
金融分野では、強化学習(RL)エージェントは、価格に影響を与えない歴史的データに基づいて訓練されることが多い。
展開中、これらのエージェントは、自身の取引が資産価格を変えることができるライブマーケットで取引する。
従来のロバストなRLアプローチは、不確実性の集合に対して最悪のパフォーマンスを最適化することで、このモデルの誤特定に対処する。
楕円型不確実性集合の新たなクラスを開発し,効率的かつ堅牢な政策評価を可能にする。
論文 参考訳(メタデータ) (2025-10-22T18:22:25Z) - The Bidding Games: Reinforcement Learning for MEV Extraction on Polygon Blockchain [0.11880231424287215]
本稿では,ポリゴンアトラスを用いたMEV抽出のための強化学習フレームワークを提案する。
我々の研究は、高頻度MEV環境において強化学習が重要な利点をもたらすことを証明している。
論文 参考訳(メタデータ) (2025-10-16T12:54:53Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。