論文の概要: AUPO - Abstracted Until Proven Otherwise: A Reward Distribution Based Abstraction Algorithm
- arxiv url: http://arxiv.org/abs/2510.23214v1
- Date: Mon, 27 Oct 2025 11:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.529154
- Title: AUPO - Abstracted Until Proven Otherwise: A Reward Distribution Based Abstraction Algorithm
- Title(参考訳): AUPO-Reward Distribution based Abstraction Algorithm
- Authors: Robin Schmöcker, Alexander Dockhorn, Bodo Rosenhahn,
- Abstract要約: 我々は,モンテカルロ木探索 (MCTS) 決定ポリシーに,AUPO と呼ばれる新しいドロップイン修正を導入する。
様々なIPPCベンチマーク問題に基づく比較は、AUPOがMCTSよりも明らかに優れていることを示している。
- 参考スコア(独自算出の注目度): 64.43268969806098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel, drop-in modification to Monte Carlo Tree Search's (MCTS) decision policy that we call AUPO. Comparisons based on a range of IPPC benchmark problems show that AUPO clearly outperforms MCTS. AUPO is an automatic action abstraction algorithm that solely relies on reward distribution statistics acquired during the MCTS. Thus, unlike other automatic abstraction algorithms, AUPO requires neither access to transition probabilities nor does AUPO require a directed acyclic search graph to build its abstraction, allowing AUPO to detect symmetric actions that state-of-the-art frameworks like ASAP struggle with when the resulting symmetric states are far apart in state space. Furthermore, as AUPO only affects the decision policy, it is not mutually exclusive with other abstraction techniques that only affect the tree search.
- Abstract(参考訳): 我々は,モンテカルロ木探索 (MCTS) 決定ポリシーに,AUPO と呼ばれる新しいドロップイン修正を導入する。
様々なIPPCベンチマーク問題に基づく比較は、AUPOがMCTSよりも明らかに優れていることを示している。
AUPOは、MCTSが取得した報酬分布統計にのみ依存する自動行動抽象化アルゴリズムである。
したがって、他の自動抽象化アルゴリズムとは異なり、AUPOは遷移確率へのアクセスを必要としないし、AUPOはその抽象化を構築するために有向非巡回探索グラフを必要としない。
さらに、AUPOは決定ポリシーにのみ影響するため、木探索にのみ影響を及ぼす他の抽象化技術と相互に排他的ではない。
関連論文リスト
- Time-critical and confidence-based abstraction dropping methods [44.99833362998488]
非コンパクト抽象は抽象空間における最適作用への収束を不可能にする。
本稿では,OGA-IAAD と OGA-CAD の2つの新しい抽象化手法を提案する。
論文 参考訳(メタデータ) (2025-07-03T15:12:05Z) - Facial Action Unit Detection by Adaptively Constraining Self-Attention and Causally Deconfounding Sample [53.23474626420103]
顔行動単位(AU)検出は、AUの微妙さ、ダイナミクス、多様性のため、依然として困難な課題である。
本稿では,自己注意重み分布を適応的に制限することで,AC2Dと呼ばれる新しいAU検出フレームワークを提案する。
提案手法は,最先端のAU検出手法と比較して,挑戦的なベンチマークによる競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-02T05:51:24Z) - Accelerating Monte Carlo Tree Search with Probability Tree State
Abstraction [11.49169644917995]
我々はモンテカルロ木探索(MCTS)の探索効率を向上させるための新しい確率木状態抽象化(PTSA)アルゴリズムを提案する。
経路遷移性を持つ一般的なツリー状態抽象化が定義され、さらに、アグリゲーションステップ中に少ないミスに対して確率木状態抽象化が提案される。
実験結果から,提案手法は検索空間を10%-45%削減した最先端アルゴリズムの学習過程を高速化できることが示された。
論文 参考訳(メタデータ) (2023-10-10T10:55:12Z) - Counterexample Guided Abstraction Refinement with Non-Refined
Abstractions for Multi-Agent Path Finding [15.99072005190786]
本稿では,SATをベースとしたMAPFのための新しいCEGAR型解法を提案する。
しかし、非精細化は、以前のアプローチよりも桁違いに小さいSATエンコーディングをもたらす。
論文 参考訳(メタデータ) (2023-01-20T17:18:49Z) - A Direct Approximation of AIXI Using Logical State Abstractions [6.570488724773507]
本稿では,強化学習エージェントに対するベイズ最適性の概念である AIXI と論理状態抽象化の実践的統合を提案する。
状態抽象化を形成するための機能の適切なサブセットを選択するという問題に対処する。
その後、抽象状態列上のコンテキストツリー重み付けの適切な一般化を用いて、厳密なベイズモデル学習が達成される。
論文 参考訳(メタデータ) (2022-10-13T11:30:56Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies [76.83991682238666]
Branch and Bound (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。
本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-12T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。