論文の概要: GammaZero: Learning To Guide POMDP Belief Space Search With Graph Representations
- arxiv url: http://arxiv.org/abs/2510.14035v1
- Date: Wed, 15 Oct 2025 19:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.593102
- Title: GammaZero: Learning To Guide POMDP Belief Space Search With Graph Representations
- Title(参考訳): GammaZero: グラフ表現でPOMDPの宇宙探索をガイドする
- Authors: Rajesh Mangannavar, Prasad Tadepalli,
- Abstract要約: 部分観測可能決定プロセス(POMDP)における計画の指針となる行動中心グラフ表現フレームワークを提案する。
私たちの重要な洞察は、信念状態は、小さな問題で学んだ構造パターンがより大きなインスタンスに移行するアクション中心のグラフに体系的に変換できるということです。
我々は、デコーダアーキテクチャを備えたグラフニューラルネットワークを用いて、計算処理可能な問題に関する専門家による実証から値関数とポリシーを学習し、これらの学習されたマルコフを適用してモンテカルロ木探索をガイドする。
- 参考スコア(独自算出の注目度): 8.83354835766461
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce an action-centric graph representation framework for learning to guide planning in Partially Observable Markov Decision Processes (POMDPs). Unlike existing approaches that require domain-specific neural architectures and struggle with scalability, GammaZero leverages a unified graph-based belief representation that enables generalization across problem sizes within a domain. Our key insight is that belief states can be systematically transformed into action-centric graphs where structural patterns learned on small problems transfer to larger instances. We employ a graph neural network with a decoder architecture to learn value functions and policies from expert demonstrations on computationally tractable problems, then apply these learned heuristics to guide Monte Carlo tree search on larger problems. Experimental results on standard POMDP benchmarks demonstrate that GammaZero achieves comparable performance to BetaZero when trained and tested on the same-sized problems, while uniquely enabling zero-shot generalization to problems 2-4 times larger than those seen during training, maintaining solution quality with reduced search requirements.
- Abstract(参考訳): 本稿では,部分観測可能なマルコフ決定プロセス (POMDP) における計画の指針を学習するためのアクション中心グラフ表現フレームワークを提案する。
ドメイン固有のニューラルアーキテクチャを必要とし、スケーラビリティに苦労する既存のアプローチとは異なり、GammaZeroは、ドメイン内の問題サイズの一般化を可能にする、統一されたグラフベースの信念表現を活用する。
私たちの重要な洞察は、信念状態は、小さな問題で学んだ構造パターンがより大きなインスタンスに移行するアクション中心のグラフに体系的に変換できるということです。
我々は,デコーダアーキテクチャを備えたグラフニューラルネットワークを用いて,計算処理可能な問題に関する専門家による実証から値関数とポリシを学習し,これらの学習ヒューリスティックを適用してモンテカルロ木探索のガイドを行う。
標準的なPOMDPベンチマークによる実験結果から、GammaZeroは、同じサイズの問題に対してトレーニングおよびテストを行う際に、BetaZeroに匹敵する性能を達成し、同時に、トレーニング中に見られた問題よりも2~4倍大きい問題に対するゼロショットの一般化を独自に実現し、探索要求を低減したソリューション品質を維持した。
関連論文リスト
- OpenGU: A Comprehensive Benchmark for Graph Unlearning [24.605943688948038]
Graph Unlearning(GU)は、プライバシに敏感なアプリケーションにとって重要なソリューションとして登場した。
最初のGUベンチマークであるOpenGUでは、16のSOTA GUアルゴリズムと37のマルチドメインデータセットが統合されている。
既存のGUメソッドに関する決定的な結論は8ドルもしますが、その一方で、その制限について貴重な洞察を得ています。
論文 参考訳(メタデータ) (2025-01-06T02:57:32Z) - A General Framework for Learning from Weak Supervision [93.89870459388185]
本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。
GLWSの中心は期待最大化(EM)の定式化であり、様々な弱い監督源を順応的に収容している。
また,EM計算要求を大幅に単純化する高度なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-02T21:48:50Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Graph Coloring with Physics-Inspired Graph Neural Networks [0.0]
正準グラフ着色問題の解法としてグラフニューラルネットワークを用いる方法を示す。
マルチクラスノード分類問題としてグラフカラー化を行い,教師なし学習戦略を利用する。
論文 参考訳(メタデータ) (2022-02-03T14:24:12Z) - Towards Unsupervised Deep Graph Structure Learning [67.58720734177325]
本稿では,学習したグラフトポロジを外部ガイダンスなしでデータ自身で最適化する,教師なしグラフ構造学習パラダイムを提案する。
具体的には、元のデータから"アンカーグラフ"として学習目標を生成し、対照的な損失を用いてアンカーグラフと学習グラフとの一致を最大化する。
論文 参考訳(メタデータ) (2022-01-17T11:57:29Z) - On the Difficulty of Generalizing Reinforcement Learning Framework for
Combinatorial Optimization [6.935838847004389]
現実の応用とグラフ上の組合せ最適化問題(COP)は、コンピュータサイエンスにおける標準的な課題である。
このアプローチの基本原理は、ノードのローカル情報とグラフ構造化データの両方を符号化するグラフニューラルネットワーク(GNN)をデプロイすることである。
我々は,クラウド上のセキュリティ対応電話機のクローン割り当てを古典的二次代入問題 (QAP) として,深層RLモデルが他の難題の解法に一般的に適用可能であるか否かを調査する。
論文 参考訳(メタデータ) (2021-08-08T19:12:04Z) - GLSearch: Maximum Common Subgraph Detection via Learning to Search [33.9052190473029]
検索モデルに対するグラフニューラルネットワーク(GNN)に基づく学習手法であるGLSearchを提案する。
このモデルでは2つの入力グラフから1対のノードを選択して一度に拡張する。
我々のGLSearchは、グラフ上の制約で他の多くの問題を解決するために拡張できる可能性がある。
論文 参考訳(メタデータ) (2020-02-08T10:03:40Z) - Graph Ordering: Towards the Optimal by Learning [69.72656588714155]
グラフ表現学習は、ノード分類、予測、コミュニティ検出など、多くのグラフベースのアプリケーションで顕著な成功を収めている。
しかし,グラフ圧縮やエッジ分割などのグラフアプリケーションでは,グラフ表現学習タスクに還元することは極めて困難である。
本稿では,このようなアプリケーションの背後にあるグラフ順序付け問題に対して,新しい学習手法を用いて対処することを提案する。
論文 参考訳(メタデータ) (2020-01-18T09:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。