論文の概要: Bayesian Graph Traversal
- arxiv url: http://arxiv.org/abs/2503.05963v1
- Date: Fri, 07 Mar 2025 22:05:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:45:44.737052
- Title: Bayesian Graph Traversal
- Title(参考訳): Bayesian Graph Traversal
- Authors: William N. Caballero, Phillip R. Jenkins, David Banks, Matthew Robbins,
- Abstract要約: 本研究は、不確実グラフのトラバースに対するベイズ的決定分析的アプローチについて考察する。
NP-Hardと最適歩行の導出特性が問題であることを示す。
本研究では,無人航空機を公共の安全に利用することに焦点を当てた実例研究を行う。
- 参考スコア(独自算出の注目度): 2.249916681499244
- License:
- Abstract: This research considers Bayesian decision-analytic approaches toward the traversal of an uncertain graph. Namely, a traveler progresses over a graph in which rewards are gained upon a node's first visit and costs are incurred for every edge traversal. The traveler knows the graph's adjacency matrix and his starting position but does not know the rewards and costs. The traveler is a Bayesian who encodes his beliefs about these values using a Gaussian process prior and who seeks to maximize his expected utility over these beliefs. Adopting a decision-analytic perspective, we develop sequential decision-making solution strategies for this coupled information-collection and network-routing problem. We show that the problem is NP-Hard and derive properties of the optimal walk. These properties provide heuristics for the traveler's problem that balance exploration and exploitation. We provide a practical case study focused on the use of unmanned aerial systems for public safety and empirically study policy performance in myriad Erdos-Renyi settings.
- Abstract(参考訳): 本研究は、不確実グラフのトラバースに対するベイズ的決定分析的アプローチについて考察する。
すなわち、旅行者はノードの最初の訪問で報酬が得られ、すべてのエッジトラバースに対してコストがかかるグラフに進む。
旅行者はグラフの隣接行列とその開始位置を知っているが、報酬とコストを知らない。
旅行者は、ガウスのプロセスを用いてこれらの価値についての彼の信念を符号化し、これらの信念に対する彼の期待する効用を最大化しようとするベイズ人である。
意思決定的視点を採用することで、この情報収集とネットワークルーティングの複合問題に対するシーケンシャルな意思決定ソリューション戦略を開発する。
NP-Hardと最適歩行の導出特性が問題であることを示す。
これらの性質は、探検と搾取のバランスをとる旅行者の問題に対するヒューリスティックスを提供する。
本研究では,無人航空機を公共の安全に利用することに着目し,無数のエルドス・レニイ・セッティングにおける政策性能を実証的に研究する実践事例を提示する。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Solving Stochastic Orienteering Problems with Chance Constraints Using a GNN Powered Monte Carlo Tree Search [3.3088495893219885]
本稿では,モンテカルロ木探索法(MCTS)を提案する。
割り当てられた旅行予算を順守しながら、アルゴリズムは、旅行コストを発生させながら収集された報酬を最大化する。
トレーニングデータセットの特性を超えて、このアプローチがいかに一般化できるかを実証する。
論文 参考訳(メタデータ) (2024-09-06T23:31:01Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - All You Need is Resistance: On the Equivalence of Effective Resistance and Certain Optimal Transport Problems on Graphs [48.84819106277247]
我々は、グラフ上の効果的な抵抗と最適輸送は、最大$p$を選択するまで、一つと同じものとして理解されるべきであると主張する。
最適停止時間とグラフ上のランダムウォーク,グラフソボレフ空間,ベナモ・ブレニエ型式に対する2ドルベックマン距離の明示的な接続を示す。
本稿では、ワッサーシュタイン距離が計算ボトルネックを引き起こす可能性のあるこれらの指標のさらなる利用法を提案する。
論文 参考訳(メタデータ) (2024-04-23T17:50:52Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Inverse Bayesian Optimization: Learning Human Search Strategies in a
Sequential Optimization Task [0.10499611180329801]
本稿では,ベイズ最適化の逆問題について考察する。
観察された探索経路に基づいてエージェントの潜時獲得関数を推定する。
実験から人間の行動を解析し,その方法を説明する。
論文 参考訳(メタデータ) (2021-04-16T15:40:34Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Optimistic Agent: Accurate Graph-Based Value Estimation for More
Successful Visual Navigation [18.519303422753534]
先行知識(または経験)の取り込み、観察された視覚的手がかりを用いた新しい環境への適応、そして早期に諦めることなく楽観的に探索することの3つの主な理由により、この能力は大きいと論じる。
これは現在、強化学習(RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。
本稿では,相対的対象位置の事前知識を外部から学習し,ニューラルグラフを構築してモデルに統合することを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。