論文の概要: Grouping Nodes With Known Value Differences: A Lossless UCT-based Abstraction Algorithm
- arxiv url: http://arxiv.org/abs/2510.25388v1
- Date: Wed, 29 Oct 2025 11:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.408788
- Title: Grouping Nodes With Known Value Differences: A Lossless UCT-based Abstraction Algorithm
- Title(参考訳): 未知の値差でノードをグループ化する: UCTに基づく抽象アルゴリズム
- Authors: Robin Schmöcker, Alexander Dockhorn, Bodo Rosenhahn,
- Abstract要約: モンテカルロ木探索(MCTS)の中核的な課題は、状態-作用ペアをグループ化することで改善できるサンプル効率である。
我々は、値等価状態または状態-作用ペアをグループ化し、代わりに異なる値を持つグループ状態と状態-作用ペアをグループ化するパラダイムを破る。
我々はこの抽象化フレームワークをKVDA(Known Value difference Abstractions)と呼び、即時報酬の分析によって価値の差を推測する。
- 参考スコア(独自算出の注目度): 64.43268969806098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A core challenge of Monte Carlo Tree Search (MCTS) is its sample efficiency, which can be improved by grouping state-action pairs and using their aggregate statistics instead of single-node statistics. On the Go Abstractions in Upper Confidence bounds applied to Trees (OGA-UCT) is the state-of-the-art MCTS abstraction algorithm for deterministic environments that builds its abstraction using the Abstractions of State-Action Pairs (ASAP) framework, which aims to detect states and state-action pairs with the same value under optimal play by analysing the search graph. ASAP, however, requires two state-action pairs to have the same immediate reward, which is a rigid condition that limits the number of abstractions that can be found and thereby the sample efficiency. In this paper, we break with the paradigm of grouping value-equivalent states or state-action pairs and instead group states and state-action pairs with possibly different values as long as the difference between their values can be inferred. We call this abstraction framework Known Value Difference Abstractions (KVDA), which infers the value differences by analysis of the immediate rewards and modifies OGA-UCT to use this framework instead. The modification is called KVDA-UCT, which detects significantly more abstractions than OGA-UCT, introduces no additional parameter, and outperforms OGA-UCT on a variety of deterministic environments and parameter settings.
- Abstract(参考訳): モンテカルロ木探索(MCTS)の中核的な課題は、そのサンプル効率であり、状態-作用対をグループ化し、その集計統計を単一ノード統計ではなく利用することで改善することができる。
On the Go Abstractions in Upper Confidence bounds applied to Trees (OGA-UCT) is the state-of-the-art MCTS abstract algorithm for deterministic environment that build its abstract using the Abstractions of State-Action Pairs (ASAP) framework。
しかし、ASAPは2つの状態-作用対が同じ即時報酬を持つ必要がある。
本稿では、値等価状態または状態-作用ペアをグループ化するパラダイムを破り、その代わりに、値の違いを推測できる限り、おそらく異なる値を持つグループ状態と状態-作用ペアを分解する。
我々は、この抽象化フレームワークをKnown Value Difference Abstractions (KVDA)と呼び、即時報酬の分析によって価値の違いを推測し、代わりにOGA-UCTをこのフレームワークを使用するように修正する。
この修正はKVDA-UCTと呼ばれ、OGA-UCTよりもはるかに多くの抽象化を検出し、追加のパラメータを導入せず、様々な決定論的環境とパラメータ設定でOGA-UCTを上回っている。
関連論文リスト
- Investigating Intra-Abstraction Policies For Non-exact Abstraction Algorithms [64.43268969806098]
モンテカルロ木探索(MCTS)の弱点は、そのサンプル効率である。
そこで我々は,いくつかの代替的吸収内政策を提案し,実証的に評価する。
論文 参考訳(メタデータ) (2025-10-28T11:00:30Z) - AUPO - Abstracted Until Proven Otherwise: A Reward Distribution Based Abstraction Algorithm [64.43268969806098]
我々は,モンテカルロ木探索 (MCTS) 決定ポリシーに,AUPO と呼ばれる新しいドロップイン修正を導入する。
様々なIPPCベンチマーク問題に基づく比較は、AUPOがMCTSよりも明らかに優れていることを示している。
論文 参考訳(メタデータ) (2025-10-27T11:04:22Z) - Time-critical and confidence-based abstraction dropping methods [44.99833362998488]
非コンパクト抽象は抽象空間における最適作用への収束を不可能にする。
本稿では,OGA-IAAD と OGA-CAD の2つの新しい抽象化手法を提案する。
論文 参考訳(メタデータ) (2025-07-03T15:12:05Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - ISTR: End-to-End Instance Segmentation with Transformers [147.14073165997846]
ISTRと呼ばれるインスタンスセグメンテーショントランスフォーマーを提案します。これは、その種類の最初のエンドツーエンドフレームワークです。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
ISTRは、提案されたエンドツーエンドのメカニズムにより、近似ベースのサブオプティマティック埋め込みでも最先端のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-05-03T06:00:09Z) - Randomized Value Functions via Posterior State-Abstraction Sampling [21.931580762349096]
我々は、潜在タスク構造を探究するエージェントは、その構造に対する不確実性を明確に表現し、維持する必要があると論じる。
本稿では、状態抽象化と抽象状態値の2つの後続分布を用いて、これを実現するための実用的なアルゴリズムを提案する。
私たちのアプローチを実証的に検証すると、マルチタスク設定でかなりのパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2020-10-05T23:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。