論文の概要: Enhancing Language Agent Strategic Reasoning through Self-Play in Adversarial Games
- arxiv url: http://arxiv.org/abs/2510.16761v1
- Date: Sun, 19 Oct 2025 09:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.848551
- Title: Enhancing Language Agent Strategic Reasoning through Self-Play in Adversarial Games
- Title(参考訳): 対戦型ゲームにおける自己プレイによる言語エージェントの戦略推論の強化
- Authors: Yikai Zhang, Ye Rong, Siyu Yuan, Jiangjie Chen, Jian Xie, Yanghua Xiao,
- Abstract要約: 本稿では,PLAY-And-Learn,SCO-PALを用いたステップレベルのポリCy最適化手法を提案する。
対戦相手を異なるレベルに設定することで、対戦相手の選択を詳細に分析し、戦略的推論を改善する最も効果的な方法が自己プレーであることを見出した。
我々は6試合でGPT-4に対して54.76%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 60.213483076150844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing language agents often encounter difficulties in dynamic adversarial games due to poor strategic reasoning. To mitigate this limitation, a promising approach is to allow agents to learn from game interactions automatically, without relying on costly expert-labeled data. Unlike static environments where agents receive fixed feedback or rewards, selecting appropriate opponents in dynamic adversarial games can significantly impact learning performance. However, the discussion of opponents in adversarial environments remains an area under exploration. In this paper, we propose a Step-level poliCy Optimization method through Play-And-Learn, SCO-PAL. Leveraging SCO-PAL, we conduct a detailed analysis of opponent selection by setting opponents at different levels and find that self-play is the most effective way to improve strategic reasoning in such adversarial environments. Utilizing SCO-PAL with self-play, we increase the average win rate against four opponents by approximately 30% compared to baselines and achieve a 54.76% win rate against GPT-4 in six adversarial games.
- Abstract(参考訳): 既存の言語エージェントは、戦略的な推論が不十分なため、動的対戦ゲームでしばしば困難に遭遇する。
この制限を緩和するためには、エージェントが高価な専門家ラベル付きデータに頼ることなく、ゲームのインタラクションから自動的に学習できるようにすることが有望なアプローチである。
エージェントが一定のフィードバックや報酬を受け取る静的環境とは異なり、動的対戦ゲームにおいて適切な相手を選択することは学習性能に大きな影響を与える。
しかし、敵の環境における敵の議論は、まだ探索中の領域である。
本稿では,PLAY-And-Learn,SCO-PALを用いたステップレベルのポリCy最適化手法を提案する。
SCO-PALを活用することで、異なるレベルに対戦相手を設定することで対戦相手の選択を詳細に分析し、このような対戦相手環境における戦略的推論を改善する最も効果的な方法が自己プレーであることを示す。
SCO-PALを自己プレーに利用し、ベースラインと比較して4人の対戦相手に対する平均勝利率を約30%増加させ、6つの対戦相手ゲームにおいてGPT-4に対する54.76%の勝利率を達成する。
関連論文リスト
- PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments [48.892997022500765]
PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。
また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。
評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
論文 参考訳(メタデータ) (2025-09-07T22:51:12Z) - Who is a Better Player: LLM against LLM [53.46608216197315]
本稿では,大規模言語モデル (LLM) の総合的な性能を評価するための対戦型ベンチマークフレームワークを提案する。
広範にプレイされている5つのゲームをサポートし,20のLDMを駆使したプレーヤーを対象とする,特別な評価プラットフォームであるQi Townを紹介した。
論文 参考訳(メタデータ) (2025-08-05T06:41:47Z) - Preference-based opponent shaping in differentiable games [3.373994463906893]
そこで我々は,エージェントの嗜好を協調に向けて形作ることによって,戦略学習プロセスを強化するためのPBOS法を提案する。
様々な異なるゲームにおいてPBOSアルゴリズムの性能を検証する。
論文 参考訳(メタデータ) (2024-12-04T06:49:21Z) - Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。