Fugu-MT 論文翻訳(概要): Policy Space Response Oracles: A Survey

論文の概要: Policy Space Response Oracles: A Survey

arxiv url: http://arxiv.org/abs/2403.02227v1
Date: Mon, 4 Mar 2024 17:15:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 17:56:12.530932
Title: Policy Space Response Oracles: A Survey
Title（参考訳）: 政策空間対応 Oracle: 調査
Authors: Ariyan Bighashdel, Yongzhao Wang, Stephen McAleer, Rahul Savani, Frans A. Oliehoek
Abstract要約: この調査は、Physal Space Response Oracles (PSRO)として知られる、大規模ゲームのための高速開発フレームワークの概要を提供する。我々はまずPSROを動機付け、歴史的文脈を提供し、PSROをゲーム推論のアプローチで位置づける。次に,PSROの戦略探索問題に焦点をあて,基礎となるゲームを最小計算コストでモデル化するための効果的な戦略ポートフォリオを構築するという課題について述べる。
参考スコア（独自算出の注目度）: 17.618067368613648
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In game theory, a game refers to a model of interaction among rational decision-makers or players, making choices with the goal of achieving their individual objectives. Understanding their behavior in games is often referred to as game reasoning. This survey provides a comprehensive overview of a fast-developing game-reasoning framework for large games, known as Policy Space Response Oracles (PSRO). We first motivate PSRO, provide historical context, and position PSRO within game-reasoning approaches. We then focus on the strategy exploration issue for PSRO, the challenge of assembling an effective strategy portfolio for modeling the underlying game with minimum computational cost. We also survey current research directions for enhancing the efficiency of PSRO, and explore the applications of PSRO across various domains. We conclude by discussing open questions and future research.
Abstract（参考訳）: ゲーム理論では、ゲームは合理的な意思決定者やプレイヤー間の相互作用のモデルであり、個々の目的を達成することを目標として選択する。ゲームの振る舞いを理解することは、しばしばゲーム推論と呼ばれる。このサーベイは、Physal Space Response Oracles (PSRO)として知られる、大規模ゲームのための高速開発ゲーム推論フレームワークの概要を提供する。我々はまずPSROを動機付け、歴史的文脈を提供し、PSROをゲーム推論のアプローチで位置づける。次に,PSROの戦略探索問題に焦点をあて,基礎となるゲームを最小計算コストでモデル化するための効果的な戦略ポートフォリオを構築するという課題について述べる。また,PSROの効率向上に向けた現在の研究の方向性を調査し,様々な領域におけるPSROの適用について検討する。オープンな質問と今後の研究について論じる。

関連論文リスト

Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文参考訳（メタデータ） (2026-03-02T16:28:39Z)
Conservative Equilibrium Discovery in Offline Game-Theoretic Multiagent Reinforcement Learning [6.299504742623642]
この問題は,オフライン学習制約下でのゲーム解決を目標とする混在型マルチエージェント環境において考慮する。我々は、ゲーム力学の不確実性を定量化することによって、オンラインゲーム解決アプローチであるポリシー空間応答オラクル(PSRO)を拡張した。我々は,PSROにおける戦略探索のガイドとなる,オフライン設定に適した新しいメタ戦略解法を提案する。
論文参考訳（メタデータ） (2026-02-27T23:24:02Z)
Simulation-Free PSRO: Removing Game Simulation from Policy Space Response Oracles [12.95757021157425]
Policy Space Response Oracles (PSRO) は、ゲーム理論の平衡計算と学習を組み合わせ、ゼロサムゲームにおけるナッシュ平衡の近似に有効である。分析の結果,PSROのランタイムにおいてゲームシミュレーションが主要なボトルネックとなっていることがわかった。提案手法は,PSROが保持する戦略を代替する戦略ウィンドウの概念を導入し,動的ウィンドウに基づくシミュレーションフリーPSROを提案する。
論文参考訳（メタデータ） (2025-12-30T14:02:32Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
WGSR-Bench: Wargame-based Game-theoretic Strategic Reasoning Benchmark for Large Language Models [28.28739884703072]
本稿では,WGSR-Benchについて紹介する。WGSR-BenchはLarge Language Models (LLMs) の最初の戦略推論ベンチマークであり,WGSR-Benchをその評価環境として利用する。我々は,戦略的推論の主要な能力を評価するために,環境意識,対人リスクモデリング,政策生成という3つの中核的課題に関するテストサンプルを設計する。
論文参考訳（メタデータ） (2025-06-12T01:16:34Z)
Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文参考訳（メタデータ） (2025-05-13T11:41:10Z)
FAIRGAME: a Framework for AI Agents Bias Recognition using Game Theory [51.96049148869987]
ゲーム理論を用いたAIエージェントバイアス認識フレームワークFAIRGAMEを提案する。我々は,AIエージェント間の人気ゲームにおけるバイアスのある結果を明らかにするために,その実装と利用について述べる。全体として、FAIRGAMEはユーザーが望むゲームやシナリオを確実に簡単にシミュレートできる。
論文参考訳（メタデータ） (2025-04-19T15:29:04Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO [10.137357924571262]
Policy Space Response Oracles (PSRO) は、従来の分析手法では複雑すぎるゲームを解決するために、実験的なゲーム理論解析を深層強化学習 (DRL) とインターリーブする。ツリー露光PSRO (TE-PSRO) は、広義に粗い経験ゲームモデルを反復的に構築するこのアプローチの変種である。 TE-PSROには2つの方法論的進歩があり、不完全情報の複雑なゲームへの適用性を高めている。
論文参考訳（メタデータ） (2025-02-05T05:48:16Z)
AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation using Tree-based Search [4.4907551923591695]
本稿では,システム解析と効率的な推論行動を統合したRAGにおける新しい思考パターンを提案する。具体的には,本手法は5つの基本的な推論動作を設計し,より広い木に基づく推論空間に拡張する。実験により,複雑な質問応答データセットに対して,AirRAGの有効性を示す。
論文参考訳（メタデータ） (2025-01-17T09:16:13Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-02T16:07:05Z)
ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。 Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文参考訳（メタデータ） (2023-11-06T16:03:46Z)
Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文参考訳（メタデータ） (2023-05-23T16:37:21Z)
Strategic Decision-Making in the Presence of Information Asymmetry: Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文参考訳（メタデータ） (2022-08-23T15:32:44Z)
Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文参考訳（メタデータ） (2022-01-28T17:54:45Z)
RESPER: Computationally Modelling Resisting Strategies in Persuasive Conversations [0.7505101297221454]
説得的会話における抵抗戦略を識別するための一般化フレームワークを提案する。実験では,非協調的目標指向会話におけるパワーロールの非対称性を明らかにする。また,会話結果に対するさまざまな抵抗戦略の役割についても検討した。
論文参考訳（メタデータ） (2021-01-26T03:44:17Z)
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文参考訳（メタデータ） (2021-01-06T19:14:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。