論文の概要: Discovering State Equivalences in UCT Search Trees By Action Pruning
- arxiv url: http://arxiv.org/abs/2510.26346v1
- Date: Thu, 30 Oct 2025 10:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.765079
- Title: Discovering State Equivalences in UCT Search Trees By Action Pruning
- Title(参考訳): アクション・プルーニングによるUCT探索木の状態等価性の検出
- Authors: Robin Schmöcker, Alexander Dockhorn, Bodo Rosenhahn,
- Abstract要約: We show that Ideal Pruning Abstractions in UCT (IPA-UCT) are out of OGA-UCT across a range of test domain and iteration budgets。
また、IPAとASAPはどちらもp-ASAPと呼ばれるより一般的なフレームワークの特殊なケースであることを示す。
- 参考スコア(独自算出の注目度): 64.43268969806098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One approach to enhance Monte Carlo Tree Search (MCTS) is to improve its sample efficiency by grouping/abstracting states or state-action pairs and sharing statistics within a group. Though state-action pair abstractions are mostly easy to find in algorithms such as On the Go Abstractions in Upper Confidence bounds applied to Trees (OGA-UCT), nearly no state abstractions are found in either noisy or large action space settings due to constraining conditions. We provide theoretical and empirical evidence for this claim, and we slightly alleviate this state abstraction problem by proposing a weaker state abstraction condition that trades a minor loss in accuracy for finding many more abstractions. We name this technique Ideal Pruning Abstractions in UCT (IPA-UCT), which outperforms OGA-UCT (and any of its derivatives) across a large range of test domains and iteration budgets as experimentally validated. IPA-UCT uses a different abstraction framework from Abstraction of State-Action Pairs (ASAP) which is the one used by OGA-UCT, which we name IPA. Furthermore, we show that both IPA and ASAP are special cases of a more general framework that we call p-ASAP which itself is a special case of the ASASAP framework.
- Abstract(参考訳): モンテカルロ木探索(MCTS)を強化する1つのアプローチは、状態または状態-作用ペアをグループ化し、グループ内で統計を共有することで、サンプル効率を改善することである。
On the Go Abstractions in Upper Confidence bounds applied to Trees (OGA-UCT)のようなアルゴリズムでは、状態-アクションペアの抽象化は簡単に見つけることができるが、制約条件によるノイズや大きなアクション空間の設定では、ほとんど状態の抽象化は見つからない。
この主張に対する理論的かつ実証的な証拠を提供し、さらに多くの抽象化を見つけるための精度の小さな損失と引き換えに、より弱い状態抽象化条件を提案することによって、この状態抽象化問題をわずかに緩和する。
我々は、この手法を、実験により検証された試験領域とイテレーション予算でOGA-UCT(およびその派生品)より優れるUTT(IPA-UCT)の理想的抽出抽象化(Ideal Pruning Abstractions in UCT)と名付けた。
IPA-UCT は Abstraction of State-Action Pairs (ASAP) とは異なる抽象化フレームワークを使用している。
さらに、IPAとASAPはどちらも、我々が p-ASAP と呼ぶより一般的なフレームワークの特別なケースであり、ASASAP フレームワークの特別なケースであることを示す。
関連論文リスト
- Grouping Nodes With Known Value Differences: A Lossless UCT-based Abstraction Algorithm [64.43268969806098]
モンテカルロ木探索(MCTS)の中核的な課題は、状態-作用ペアをグループ化することで改善できるサンプル効率である。
我々は、値等価状態または状態-作用ペアをグループ化し、代わりに異なる値を持つグループ状態と状態-作用ペアをグループ化するパラダイムを破る。
我々はこの抽象化フレームワークをKVDA(Known Value difference Abstractions)と呼び、即時報酬の分析によって価値の差を推測する。
論文 参考訳(メタデータ) (2025-10-29T11:03:44Z) - Investigating Intra-Abstraction Policies For Non-exact Abstraction Algorithms [64.43268969806098]
モンテカルロ木探索(MCTS)の弱点は、そのサンプル効率である。
そこで我々は,いくつかの代替的吸収内政策を提案し,実証的に評価する。
論文 参考訳(メタデータ) (2025-10-28T11:00:30Z) - AUPO - Abstracted Until Proven Otherwise: A Reward Distribution Based Abstraction Algorithm [64.43268969806098]
我々は,モンテカルロ木探索 (MCTS) 決定ポリシーに,AUPO と呼ばれる新しいドロップイン修正を導入する。
様々なIPPCベンチマーク問題に基づく比較は、AUPOがMCTSよりも明らかに優れていることを示している。
論文 参考訳(メタデータ) (2025-10-27T11:04:22Z) - Causal Abstraction Inference under Lossy Representations [53.18851962820361]
我々は、既存の定義を一般化して損失表現に適合させる、投影抽象化と呼ばれる新しいタイプの抽象化を導入する。
低レベルモデルから投影された抽象化を構築する方法と、それと等価な観察的、介入的、および反ファクト的因果クエリを低レベルから高レベルに翻訳する方法を示す。
論文 参考訳(メタデータ) (2025-09-25T21:20:42Z) - Time-critical and confidence-based abstraction dropping methods [44.99833362998488]
非コンパクト抽象は抽象空間における最適作用への収束を不可能にする。
本稿では,OGA-IAAD と OGA-CAD の2つの新しい抽象化手法を提案する。
論文 参考訳(メタデータ) (2025-07-03T15:12:05Z) - Efficient Monte Carlo Tree Search via On-the-Fly State-Conditioned Action Abstraction [27.53460927687747]
状態とサブアクション間の構成構造に基づくアクション抽象化を提案する。
提案手法は,現在状態の遷移に関連するサブアクションをキャプチャする補助ネットワークを用いて,潜時ダイナミクスモデルを学習する。
論文 参考訳(メタデータ) (2024-06-02T04:31:30Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - A Direct Approximation of AIXI Using Logical State Abstractions [6.570488724773507]
本稿では,強化学習エージェントに対するベイズ最適性の概念である AIXI と論理状態抽象化の実践的統合を提案する。
状態抽象化を形成するための機能の適切なサブセットを選択するという問題に対処する。
その後、抽象状態列上のコンテキストツリー重み付けの適切な一般化を用いて、厳密なベイズモデル学習が達成される。
論文 参考訳(メタデータ) (2022-10-13T11:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。