論文の概要: On some improvements to Unbounded Minimax
- arxiv url: http://arxiv.org/abs/2505.04525v1
- Date: Wed, 07 May 2025 15:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.139633
- Title: On some improvements to Unbounded Minimax
- Title(参考訳): Unbounded Minimaxの改良について
- Authors: Quentin Cohen-Solal, Tristan Cazenave,
- Abstract要約: 本報告では, 未検証の4つの非有界Best-First Minimaxの修正について, 実験的検討を行った。
まず,ゲームツリーを有向非巡回グラフに変換し,重複状態をマージするトランスポジションテーブルの利用について検討する。
- 参考スコア(独自算出の注目度): 3.860785927193332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the first experimental evaluation of four previously untested modifications of Unbounded Best-First Minimax algorithm. This algorithm explores the game tree by iteratively expanding the most promising sequences of actions based on the current partial game tree. We first evaluate the use of transposition tables, which convert the game tree into a directed acyclic graph by merging duplicate states. Second, we compare the original algorithm by Korf & Chickering with the variant proposed by Cohen-Solal, which differs in its backpropagation strategy: instead of stopping when a stable value is encountered, it updates values up to the root. This change slightly improves performance when value ties or transposition tables are involved. Third, we assess replacing the exact terminal evaluation function with the learned heuristic function. While beneficial when exact evaluations are costly, this modification reduces performance in inexpensive settings. Finally, we examine the impact of the completion technique that prioritizes resolved winning states and avoids resolved losing states. This technique also improves performance. Overall, our findings highlight how targeted modifications can enhance the efficiency of Unbounded Best-First Minimax.
- Abstract(参考訳): 本稿では,未検証の4つの非有界Best-First Minimaxアルゴリズムの実験的検討を行った。
このアルゴリズムは、現在の部分的なゲームツリーに基づいて、最も有望なアクション列を反復的に拡張することにより、ゲームツリーを探索する。
まず,ゲームツリーを有向非巡回グラフに変換し,重複状態をマージするトランスポジションテーブルの利用について検討する。
第二に、Korf & Chickering による元のアルゴリズムと、Cohen-Solal が提案した派生アルゴリズムを比較する。
この変更は、値関係や転置テーブルが関与する際のパフォーマンスをわずかに改善する。
第3に、正確な端末評価関数を学習ヒューリスティック関数に置き換えることを評価する。
正確な評価が高価な場合には有益だが、この修正は安価な設定での性能を低下させる。
最後に,解決した敗戦状態を優先し,解決した敗戦状態を回避した完了技術の影響について検討する。
この技術は性能も向上する。
全体としては、ターゲットとなる修正によって、Unbounded Best-First Minimaxの効率が向上することを示す。
関連論文リスト
- Distributed Online Bandit Nonconvex Optimization with One-Point Residual Feedback via Dynamic Regret [10.700891331004799]
本稿では,非損失関数を用いた分散オンライン帯域最適化問題について検討する。
プレイヤーは敵を選択し、そのプレイヤーに任意の非線形損失関数を割り当てる。
予想されるアルゴリズムの後悔は、2点偏差を用いた既存のアルゴリズムに匹敵する。
論文 参考訳(メタデータ) (2024-09-24T02:37:33Z) - Free Lunch in the Forest: Functionally-Identical Pruning of Boosted Tree Ensembles [45.962492329047215]
木アンサンブルを原モデルと「機能的に同一」な縮小版にプルークする方法を提案する。
我々は,アンサンブル上での機能的同一プルーニングの問題を形式化し,正確な最適化モデルを導入し,大規模なアンサンブルをプルーする高速かつ高効率な方法を提供する。
論文 参考訳(メタデータ) (2024-08-28T23:15:46Z) - Resetting the Optimizer in Deep RL: An Empirical Study [10.907980864371213]
深層強化学習における最適値関数の近似に着目する。
この単純な修正により,Atariベンチマークにおける深部RLの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2023-06-30T17:53:50Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Planning and Learning with Adaptive Lookahead [74.39132848733847]
ポリシーイテレーション(PI)アルゴリズムは、欲求の一段階の改善と政策評価を交互に行う。
近年の文献では、複数段階のルックアヘッドポリシーの改善が、イテレーション毎の複雑さの増加を犠牲にして、よりコンバージェンス率の向上につながることが示されている。
本研究では,多段階の地平線を状態と推定値の関数として動的に適応する手法を初めて提案する。
論文 参考訳(メタデータ) (2022-01-28T20:26:55Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Regression with Missing Data, a Comparison Study of TechniquesBased on
Random Forests [0.0]
本稿では,サンプルの欠落値を扱うために,新しいランダムフォレストアルゴリズムの実用的メリットを示す。
MCAR、MAR、MNARなどの欠落した値機構を考慮し、シミュレーションする。
本稿では,2次誤差とバイアスオブユールアルゴリズムについて検討し,文献において最もよく使われている無作為な森林アルゴリズムと比較する。
論文 参考訳(メタデータ) (2021-10-18T14:02:15Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。