論文の概要: Investigating Intra-Abstraction Policies For Non-exact Abstraction Algorithms
- arxiv url: http://arxiv.org/abs/2510.24297v1
- Date: Tue, 28 Oct 2025 11:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.030237
- Title: Investigating Intra-Abstraction Policies For Non-exact Abstraction Algorithms
- Title(参考訳): 非接触抽象アルゴリズムにおける抽象内政策の検討
- Authors: Robin Schmöcker, Alexander Dockhorn, Bodo Rosenhahn,
- Abstract要約: モンテカルロ木探索(MCTS)の弱点は、そのサンプル効率である。
そこで我々は,いくつかの代替的吸収内政策を提案し,実証的に評価する。
- 参考スコア(独自算出の注目度): 64.43268969806098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One weakness of Monte Carlo Tree Search (MCTS) is its sample efficiency which can be addressed by building and using state and/or action abstractions in parallel to the tree search such that information can be shared among nodes of the same layer. The primary usage of abstractions for MCTS is to enhance the Upper Confidence Bound (UCB) value during the tree policy by aggregating visits and returns of an abstract node. However, this direct usage of abstractions does not take the case into account where multiple actions with the same parent might be in the same abstract node, as these would then all have the same UCB value, thus requiring a tiebreak rule. In state-of-the-art abstraction algorithms such as pruned On the Go Abstractions (pruned OGA), this case has not been noticed, and a random tiebreak rule was implicitly chosen. In this paper, we propose and empirically evaluate several alternative intra-abstraction policies, several of which outperform the random policy across a majority of environments and parameter settings.
- Abstract(参考訳): モンテカルロ木探索(MCTS)の弱点の1つは、そのサンプル効率であり、同じ層のノード間で情報を共有できるように、ツリー探索と並行して状態やアクションの抽象化を構築し、使用することで対処できる。
MCTSの抽象化の主な用途は、抽象ノードの訪問と返却を集約することで、ツリーポリシー中のアッパー信頼境界(UCB)値を強化することである。
しかし、この抽象化の直接的な使用は、同じ親を持つ複数のアクションが同じ抽象ノードにある可能性を考慮していない。
pruned On the Go Abstractions (pruned OGA)のような最先端の抽象化アルゴリズムでは、このケースは気づかず、ランダムなタイブレークルールが暗黙的に選択された。
本稿では,多くの環境やパラメータ設定において,ランダムなポリシーよりも優れた代替的アトラクションポリシーを提案し,実証的に評価する。
関連論文リスト
- AUPO - Abstracted Until Proven Otherwise: A Reward Distribution Based Abstraction Algorithm [64.43268969806098]
我々は,モンテカルロ木探索 (MCTS) 決定ポリシーに,AUPO と呼ばれる新しいドロップイン修正を導入する。
様々なIPPCベンチマーク問題に基づく比較は、AUPOがMCTSよりも明らかに優れていることを示している。
論文 参考訳(メタデータ) (2025-10-27T11:04:22Z) - Using Large Language Models for Abstraction of Planning Domains - Extended Version [6.021787236982658]
PDDLにおけるエージェントの具体的な振る舞いをモデル化し、大規模言語モデル(LLM)を用いた文脈内学習の利用について検討する。
代替具体的なアクションの選択の抽象化、具体的なアクションのシーケンスの抽象化、アクション/述語パラメータの抽象化の3つのカテゴリについて検討する。
生成された抽象PDDLドメインと問題インスタンスは、シンボル検証ツールと人間の専門家によってチェックされる。
論文 参考訳(メタデータ) (2025-10-23T06:27:03Z) - Causal Abstraction Inference under Lossy Representations [53.18851962820361]
我々は、既存の定義を一般化して損失表現に適合させる、投影抽象化と呼ばれる新しいタイプの抽象化を導入する。
低レベルモデルから投影された抽象化を構築する方法と、それと等価な観察的、介入的、および反ファクト的因果クエリを低レベルから高レベルに翻訳する方法を示す。
論文 参考訳(メタデータ) (2025-09-25T21:20:42Z) - Time-critical and confidence-based abstraction dropping methods [44.99833362998488]
非コンパクト抽象は抽象空間における最適作用への収束を不可能にする。
本稿では,OGA-IAAD と OGA-CAD の2つの新しい抽象化手法を提案する。
論文 参考訳(メタデータ) (2025-07-03T15:12:05Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Elastic Monte Carlo Tree Search with State Abstraction for Strategy Game
Playing [58.720142291102135]
戦略ビデオゲームは、複雑なゲーム要素によって引き起こされる検索スペースでAIエージェントに挑戦する。
状態抽象化は、状態空間の複雑さを低減する一般的なテクニックである。
我々は,状態抽象化を用いてストラテジーゲームをプレイするアルゴリズムであるElastic MCTSを提案する。
論文 参考訳(メタデータ) (2022-05-30T14:18:45Z) - MDP Abstraction with Successor Features [14.433551477386318]
本研究では,エージェントが状態や時間的抽象化を行う強化学習の文脈における抽象化について検討する。
本研究では,後継機能に基づく新しい抽象スキームである後継抽象化を提案する。
我々の後継抽象化は、異なる環境間で伝達可能なセマンティクスで抽象環境モデルを学習することを可能にする。
論文 参考訳(メタデータ) (2021-10-18T11:35:08Z) - Randomized Value Functions via Posterior State-Abstraction Sampling [21.931580762349096]
我々は、潜在タスク構造を探究するエージェントは、その構造に対する不確実性を明確に表現し、維持する必要があると論じる。
本稿では、状態抽象化と抽象状態値の2つの後続分布を用いて、これを実現するための実用的なアルゴリズムを提案する。
私たちのアプローチを実証的に検証すると、マルチタスク設定でかなりのパフォーマンス向上が得られます。
論文 参考訳(メタデータ) (2020-10-05T23:04:18Z) - Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies [76.83991682238666]
Branch and Bound (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。
本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-12T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。