Fugu-MT 論文翻訳(概要): Policy Space Response Oracles: A Survey

論文の概要: Policy Space Response Oracles: A Survey

arxiv url: http://arxiv.org/abs/2403.02227v2
Date: Mon, 27 May 2024 16:49:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 06:45:59.926065
Title: Policy Space Response Oracles: A Survey
Title（参考訳）: 政策空間対応 Oracle: 調査
Authors: Ariyan Bighashdel, Yongzhao Wang, Stephen McAleer, Rahul Savani, Frans A. Oliehoek,
Abstract要約: この調査は、Physal Space Response Oracles (PSRO)として知られる大規模なゲームのためのフレームワークの概要を提供する。 PSROは,戦略の十分なサブセットに注目することで,スケーラビリティ向上を約束している。我々はPSROの戦略探索問題に焦点をあてる: 計算コストを最小に抑えながらオリジナルのゲームを表現する戦略の効果的なサブセットを組み立てることの課題である。
参考スコア（独自算出の注目度）: 16.421805293725818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Game theory provides a mathematical way to study the interaction between multiple decision makers. However, classical game-theoretic analysis is limited in scalability due to the large number of strategies, precluding direct application to more complex scenarios. This survey provides a comprehensive overview of a framework for large games, known as Policy Space Response Oracles (PSRO), which holds promise to improve scalability by focusing attention on sufficient subsets of strategies. We first motivate PSRO and provide historical context. We then focus on the strategy exploration problem for PSRO: the challenge of assembling effective subsets of strategies that still represent the original game well with minimum computational cost. We survey current research directions for enhancing the efficiency of PSRO, and explore the applications of PSRO across various domains. We conclude by discussing open questions and future research.
Abstract（参考訳）: ゲーム理論は、複数の意思決定者間の相互作用を研究する数学的方法を提供する。しかし、古典的なゲーム理論解析は、より複雑なシナリオへの直接適用を前もって、多くの戦略のためにスケーラビリティに制限されている。この調査は、ポリシスペースレスポンスオラクル(PSRO)として知られる、大規模なゲームのためのフレームワークの概要を提供する。われわれはまずPSROを動機付け、歴史的文脈を提供する。次に,PSROの戦略探索問題,すなわち,オリジナルのゲームを表す戦略の効果的なサブセットを最小計算コストで組み立てることの課題に焦点をあてる。我々は,PSROの効率向上に向けた現在の研究方向を調査し,PSROの様々な領域への応用について検討する。オープンな質問と将来の研究を議論することで締めくくります。

関連論文リスト

Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
WGSR-Bench: Wargame-based Game-theoretic Strategic Reasoning Benchmark for Large Language Models [28.28739884703072]
本稿では,WGSR-Benchについて紹介する。WGSR-BenchはLarge Language Models (LLMs) の最初の戦略推論ベンチマークであり,WGSR-Benchをその評価環境として利用する。我々は,戦略的推論の主要な能力を評価するために,環境意識,対人リスクモデリング,政策生成という3つの中核的課題に関するテストサンプルを設計する。
論文参考訳（メタデータ） (2025-06-12T01:16:34Z)
Strategy-Augmented Planning for Large Language Models via Opponent Exploitation [11.840105106884543]
LLMエージェントの攻撃的利用能力を大幅に向上させる2段階戦略拡張計画(SAP)フレームワークを提案する。オフラインの段階では、明示的な戦略空間を構築し、その後戦略評価ネットワーク(SEN)をトレーニングするための戦略アウトカムペアデータを収集する。オンラインフェーズでは、SAPは相手の戦略を動的に認識し、よく訓練されたSEN上で最良のレスポンス戦略を探索することにより、それらを強引に活用する。
論文参考訳（メタデータ） (2025-05-13T11:41:10Z)
FAIRGAME: a Framework for AI Agents Bias Recognition using Game Theory [51.96049148869987]
ゲーム理論を用いたAIエージェントバイアス認識フレームワークFAIRGAMEを提案する。我々は,AIエージェント間の人気ゲームにおけるバイアスのある結果を明らかにするために,その実装と利用について述べる。全体として、FAIRGAMEはユーザーが望むゲームやシナリオを確実に簡単にシミュレートできる。
論文参考訳（メタデータ） (2025-04-19T15:29:04Z)
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。 EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文参考訳（メタデータ） (2025-02-18T03:15:55Z)
Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO [10.137357924571262]
Policy Space Response Oracles (PSRO) は、従来の分析手法では複雑すぎるゲームを解決するために、実験的なゲーム理論解析を深層強化学習 (DRL) とインターリーブする。ツリー露光PSRO (TE-PSRO) は、広義に粗い経験ゲームモデルを反復的に構築するこのアプローチの変種である。 TE-PSROには2つの方法論的進歩があり、不完全情報の複雑なゲームへの適用性を高めている。
論文参考訳（メタデータ） (2025-02-05T05:48:16Z)
AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation using Tree-based Search [4.4907551923591695]
本稿では,システム解析と効率的な推論行動を統合したRAGにおける新しい思考パターンを提案する。具体的には,本手法は5つの基本的な推論動作を設計し,より広い木に基づく推論空間に拡張する。実験により,複雑な質問応答データセットに対して,AirRAGの有効性を示す。
論文参考訳（メタデータ） (2025-01-17T09:16:13Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-02T16:07:05Z)
ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。 Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文参考訳（メタデータ） (2023-11-06T16:03:46Z)
Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文参考訳（メタデータ） (2023-05-23T16:37:21Z)
Strategic Decision-Making in the Presence of Information Asymmetry: Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文参考訳（メタデータ） (2022-08-23T15:32:44Z)
Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文参考訳（メタデータ） (2022-01-28T17:54:45Z)
RESPER: Computationally Modelling Resisting Strategies in Persuasive Conversations [0.7505101297221454]
説得的会話における抵抗戦略を識別するための一般化フレームワークを提案する。実験では,非協調的目標指向会話におけるパワーロールの非対称性を明らかにする。また,会話結果に対するさまざまな抵抗戦略の役割についても検討した。
論文参考訳（メタデータ） (2021-01-26T03:44:17Z)
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文参考訳（メタデータ） (2021-01-06T19:14:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。