論文の概要: Choosing Well Your Opponents: How to Guide the Synthesis of Programmatic
Strategies
- arxiv url: http://arxiv.org/abs/2307.04893v1
- Date: Mon, 10 Jul 2023 20:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-07-12 17:01:17.932372
- Title: Choosing Well Your Opponents: How to Guide the Synthesis of Programmatic
Strategies
- Title(参考訳): 回答者をうまく選択する:プログラム戦略の合成をいかにガイドするか
- Authors: Rubens O. Moraes, David S. Aleixo, Lucas N. Ferreira, Levi H. S. Lelis
- Abstract要約: Local Learner (2L) はゼロサムゲームにおけるプログラム戦略の探索をガイドする参照戦略のセットを提供するアルゴリズムである。
提案手法の利点を実証的に示すとともに,3つのゲームで戦略を合成するための局所探索アルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 19.143548378141062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Local Learner (2L), an algorithm for providing a set of
reference strategies to guide the search for programmatic strategies in
two-player zero-sum games. Previous learning algorithms, such as Iterated Best
Response (IBR), Fictitious Play (FP), and Double-Oracle (DO), can be
computationally expensive or miss important information for guiding search
algorithms. 2L actively selects a set of reference strategies to improve the
search signal. We empirically demonstrate the advantages of our approach while
guiding a local search algorithm for synthesizing strategies in three games,
including MicroRTS, a challenging real-time strategy game. Results show that 2L
learns reference strategies that provide a stronger search signal than IBR, FP,
and DO. We also simulate a tournament of MicroRTS, where a synthesizer using 2L
outperformed the winners of the two latest MicroRTS competitions, which were
programmatic strategies written by human programmers.
- Abstract(参考訳): 本稿では,2プレイヤーゼロサムゲームにおけるプログラム戦略の探索を誘導する参照戦略のセットを提供するアルゴリズムであるLocal Learner (2L)を紹介する。
Iterated Best Response (IBR)、Fictitious Play (FP)、Double-Oracle (DO)といった従来の学習アルゴリズムは、計算コストがかかるか、検索アルゴリズムを導く上で重要な情報を見逃す可能性がある。
2Lは、探索信号を改善するための一連の参照戦略を積極的に選択する。
実戦戦略ゲームであるMicroRTSを含む3つのゲームにおいて,局所探索アルゴリズムを用いて戦略を合成する際のアプローチの利点を実証的に示す。
その結果、2l は ibr, fp, do よりも強力な探索信号を提供する参照戦略を学習できることがわかった。
また,2Lを用いたシンセサイザーが,プログラムによるプログラム戦略である2つのMicroRTSコンペティションの勝者よりも優れていたMicroRTSのトーナメントをシミュレートした。
関連論文リスト
- Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。
我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文 参考訳(メタデータ) (2026-03-02T16:28:39Z) - SynthStrategy: Extracting and Formalizing Latent Strategic Insights from LLMs in Organic Chemistry [4.220916808049659]
本稿では,大規模言語モデルを用いて合成知識をコードに抽出する手法を提案する。
本システムでは, 合成経路を解析し, 戦略原理を多種多様な戦略的, 戦術的ルールを表すPython関数に変換する。
この研究は、CASPにおける戦術的戦略的分割を橋渡しし、戦略的基準によるルートの仕様、探索、評価を可能にする。
論文 参考訳(メタデータ) (2025-12-01T10:33:00Z) - Reinforced Strategy Optimization for Conversational Recommender Systems via Network-of-Experts [63.412646471177645]
会話レコメンダシステム(CRS)のための新しい強化戦略最適化(RSO)手法を提案する。
RSOは、戦略駆動型応答決定をマクロレベルの戦略計画とマイクロレベルの戦略適応に分解する。
実験の結果, RSOは最先端のベースラインと比較して, インタラクション性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-09-30T11:12:01Z) - Observation-Free Attacks on Online Learning to Rank [5.004981323118799]
我々は、広く使われているオンライン学習アルゴリズムのいくつかを攻撃するための新しいフレームワークを提案する。
本フレームワークは,T-o(T)ラウンドのトップKレコメンデーションリストに表示されるようにターゲット項目のセットをプロモートすると同時に,学習アルゴリズムにおける線形後悔を同時に引き起こすように設計されている。
論文 参考訳(メタデータ) (2025-09-26T19:06:42Z) - Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective [65.12150411762273]
ランダムなデモを不整合な "gibberish" にプルーニングすることで,多様なタスクにおけるパフォーマンスが著しく向上することを示す。
本稿では,低データレジームのみを用いてプルーニング戦略を自動的に検索する自己発見プロンプト最適化フレームワークPromptQuineを提案する。
論文 参考訳(メタデータ) (2025-06-22T07:53:07Z) - Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。
サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。
本稿では,スケーリング性能を効率的に予測し,大規模なサンプリング時間下での最良のプロンプト戦略を特定する確率的手法を提案する。
論文 参考訳(メタデータ) (2025-05-16T08:28:57Z) - Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-28T14:30:17Z) - Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - Strategist: Self-improvement of LLM Decision Making via Bi-Level Tree Search [32.657454056329875]
大規模言語モデル(LLM)は、強力な一般化とゼロショット能力を示すが、詳細な計画と意思決定を必要とするタスクに苦労する。
両手法の長所を統合する新しいアプローチであるSTRATEGISTを紹介する。
本研究では,部分情報を持つ競合型マルチターンゲームのための最適戦略学習におけるSTRATEGISTの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-20T08:22:04Z) - Layered and Staged Monte Carlo Tree Search for SMT Strategy Synthesis [7.348176676723853]
我々は、Z3 SMTソルバの一部として、Z3alphaと呼ばれる手法を実装した。
Z3alphaは、デフォルトのZ3ソルバであるSOTA合成ツールFastSMTや、ほとんどのベンチマークでCVC5ソルバよりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-01-30T16:47:30Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Variational Methods for Computing Non-Local Quantum Strategies [1.95414377613382]
非ローカルゲームでは、2人の非コミュニケーションプレーヤーが、ゲームのルールに違反しない戦略を持っていることを審判に納得させるために協力する。
提案アルゴリズムは,グラフカラーゲームに最適な量子戦略を実装した近距離回路を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:17:18Z) - What can we Learn Even From the Weakest? Learning Sketches for
Programmatic Strategies [13.980232286609136]
行動クローニングは,プログラム戦略の効果的なスケッチの学習に有効であることを示す。
弱いプレイヤーの行動のクローン化によって学んだスケッチでさえ、プログラム戦略の合成に役立てることができることを示す。
論文 参考訳(メタデータ) (2022-03-22T17:33:01Z) - Tightly Coupled Learning Strategy for Weakly Supervised Hierarchical
Place Recognition [0.09558392439655011]
本稿では,三重項モデルを学習するための密結合学習(TCL)戦略を提案する。
グローバルデクリプタとローカルデクリプタを組み合わせて、共同最適化を行う。
我々の軽量統一モデルは、いくつかの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-02-14T03:20:39Z) - Portfolio Search and Optimization for General Strategy Game-Playing [58.896302717975445]
ローリングホライズン進化アルゴリズムに基づく最適化とアクション選択のための新しいアルゴリズムを提案する。
エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。
エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。
論文 参考訳(メタデータ) (2021-04-21T09:28:28Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。