論文の概要: Perfect Information Monte Carlo with Postponing Reasoning
- arxiv url: http://arxiv.org/abs/2408.02380v1
- Date: Mon, 5 Aug 2024 11:12:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 13:46:54.819307
- Title: Perfect Information Monte Carlo with Postponing Reasoning
- Title(参考訳): ポストポンピングによるモンテカルロの完全情報化
- Authors: Jérôme Arjonilla, Abdallah Saffidine, Tristan Cazenave,
- Abstract要約: In this study introduceds Extended Perfect Information Monte Carlo (EPIMC), a online algorithm that the state-of-the-the-art determinization-based approach Perfect Information Monte Carlo (PIMC)。
EPIMCは完全な情報解決を延期し、戦略融合に関連する問題を緩和する。
戦略融合がゲームプレイに大きく影響を与えるゲームでは,特に顕著なパフォーマンス向上がみられた。
- 参考スコア(独自算出の注目度): 4.111084095218968
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Imperfect information games, such as Bridge and Skat, present challenges due to state-space explosion and hidden information, posing formidable obstacles for search algorithms. Determinization-based algorithms offer a resolution by sampling hidden information and solving the game in a perfect information setting, facilitating rapid and effective action estimation. However, transitioning to perfect information introduces challenges, notably one called strategy fusion.This research introduces `Extended Perfect Information Monte Carlo' (EPIMC), an online algorithm inspired by the state-of-the-art determinization-based approach Perfect Information Monte Carlo (PIMC). EPIMC enhances the capabilities of PIMC by postponing the perfect information resolution, reducing alleviating issues related to strategy fusion. However, the decision to postpone the leaf evaluator introduces novel considerations, such as the interplay between prior levels of reasoning and the newly deferred resolution. In our empirical analysis, we investigate the performance of EPIMC across a range of games, with a particular focus on those characterized by varying degrees of strategy fusion. Our results demonstrate notable performance enhancements, particularly in games where strategy fusion significantly impacts gameplay. Furthermore, our research contributes to the theoretical foundation of determinization-based algorithms addressing challenges associated with strategy fusion.%, thereby enhancing our understanding of these algorithms within the context of imperfect information game scenarios.
- Abstract(参考訳): BridgeやSkatのような不完全な情報ゲームは、状態空間の爆発と隠れた情報による課題を示し、検索アルゴリズムに重大な障害を生じさせる。
決定に基づくアルゴリズムは、隠れた情報をサンプリングし、完璧な情報設定でゲームを解くことで解決し、迅速かつ効果的なアクション推定を容易にする。
しかし、完全情報への移行には、特に戦略融合(英語版)と呼ばれる課題が伴う。この研究は、最先端の決定に基づくアプローチであるPerfect Information Monte Carlo (PIMC)にインスパイアされたオンラインアルゴリズムである「Extended Perfect Information Monte Carlo (EPIMC)」を導入する。
EPIMCは、完全な情報解決を延期することでPIMCの機能を強化し、戦略融合に関わる問題を緩和する。
しかし、葉評価を延期する決定は、事前の推論レベルと新たに延期された解決との相互作用など、新しい考察をもたらす。
実験分析では, EPIMCの性能を多種多様なゲームで検証し, 戦略融合の度合いに特化して検討した。
戦略融合がゲームプレイに大きく影響を与えるゲームでは,特に顕著なパフォーマンス向上がみられた。
さらに,本研究は,戦略融合に関わる課題に対処する決定性に基づくアルゴリズムの理論的基礎に寄与する。
その結果,不完全な情報ゲームシナリオのコンテキストにおいて,これらのアルゴリズムの理解を深めることができた。
関連論文リスト
- On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Increasing the Value of Information During Planning in Uncertain Environments [0.0]
我々は,情報収集行動の価値をよりよく反映して,最先端のオンライン計画を改善する新しいアルゴリズムを開発した。
結果,新しいアルゴリズムはPOMCPよりも高い性能を示した。
論文 参考訳(メタデータ) (2024-09-14T22:04:34Z) - CHARME: A chain-based reinforcement learning approach for the minor embedding problem [16.24890195949869]
本稿では,CHARME という名前の小さな埋め込み問題に対処するために,強化学習(RL)技術を利用した新しい手法を提案する。
CHARMEには、ポリシーモデリングのためのグラフニューラルネットワーク(GNN)アーキテクチャ、ソリューションの有効性を保証する状態遷移アルゴリズム、効果的なトレーニングのための順序探索戦略の3つの重要なコンポーネントが含まれている。
詳細では、CHARME は Minorminer や ATOM のような高速な埋め込み法に比べて優れた解が得られる。
論文 参考訳(メタデータ) (2024-06-11T10:12:10Z) - Note: Evolutionary Game Theory Focus Informational Health: The Cocktail
Party Effect Through Werewolfgame under Incomplete Information and ESS Search
Method Using Expected Gains of Repeated Dilemmas [0.0]
非完全情報ゲームにおけるカクテルパーティー効果による情報破壊の実態を考察する。
疑似ニュースの汚染リスクがランダムに割り当てられると仮定して,各戦略選択の利得と進化安定戦略(ESS)の形成過程を数学的にモデル化し,解析する。
論文 参考訳(メタデータ) (2024-02-27T14:10:34Z) - An Improved Artificial Fish Swarm Algorithm for Solving the Problem of
Investigation Path Planning [8.725702964289479]
多集団差分進化(DE-CAFSA)に基づくカオス人工魚群アルゴリズムを提案する。
適応的な視野とステップサイズ調整を導入し、ランダムな動作を2オプト操作に置き換え、カオス理論と準最適解を導入する。
実験結果から、DECAFSAは、異なる大きさの様々な公開データセット上で、他のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:35:51Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - Planning to the Information Horizon of BAMDPs via Epistemic State
Abstraction [27.33232096515561]
ベイズ適応マルコフ決定過程 (Bayes-Adaptive Markov Decision Process, BAMDP) は、強化学習における探索・探索のトレードオフに対するベイズ最適解を追求する形式である。
文献の多くは適切な近似アルゴリズムの開発に重点を置いている。
BAMDP計画の複雑さの尺度として,まず軽微な構造的仮定で定義する。
そして、BAMDPの複雑性を低減し、計算可能で近似的な計画アルゴリズムを生み出す可能性を備えた、特定の状態抽象化形式を導入することで、結論付ける。
論文 参考訳(メタデータ) (2022-10-30T16:30:23Z) - Contextual Model Aggregation for Fast and Robust Federated Learning in
Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。
既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。
そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T21:42:31Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。