論文の概要: Deceptive Path Planning via Reinforcement Learning with Graph Neural
Networks
- arxiv url: http://arxiv.org/abs/2402.06552v1
- Date: Fri, 9 Feb 2024 17:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:16:44.342835
- Title: Deceptive Path Planning via Reinforcement Learning with Graph Neural
Networks
- Title(参考訳): グラフニューラルネットワークを用いた強化学習による知覚経路計画
- Authors: Michael Y. Fatemi and Wesley A. Suttle and Brian M. Sadler
- Abstract要約: 認知的経路計画(deceptive path planning, DPP)は、真の目標を外部の観測者から隠蔽する経路を設計する問題である。
DPPの既存の方法は、大域的状態観測可能性や完璧なモデル知識のような非現実的な仮定に依存している。
本稿では、任意の重み付きグラフ上でDPPを実行するためのトレーニングポリシーの強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 11.099595111978653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deceptive path planning (DPP) is the problem of designing a path that hides
its true goal from an outside observer. Existing methods for DPP rely on
unrealistic assumptions, such as global state observability and perfect model
knowledge, and are typically problem-specific, meaning that even minor changes
to a previously solved problem can force expensive computation of an entirely
new solution. Given these drawbacks, such methods do not generalize to unseen
problem instances, lack scalability to realistic problem sizes, and preclude
both on-the-fly tunability of deception levels and real-time adaptivity to
changing environments. In this paper, we propose a reinforcement learning
(RL)-based scheme for training policies to perform DPP over arbitrary weighted
graphs that overcomes these issues. The core of our approach is the
introduction of a local perception model for the agent, a new state space
representation distilling the key components of the DPP problem, the use of
graph neural network-based policies to facilitate generalization and scaling,
and the introduction of new deception bonuses that translate the deception
objectives of classical methods to the RL setting. Through extensive
experimentation we show that, without additional fine-tuning, at test time the
resulting policies successfully generalize, scale, enjoy tunable levels of
deception, and adapt in real-time to changes in the environment.
- Abstract(参考訳): deceptive path planning (dpp) は、実際のゴールを外部のオブザーバーから隠蔽するパスを設計する問題である。
DPPの既存の手法は、大域的な状態観測可能性や完璧なモデル知識のような非現実的な仮定に依存しており、通常は問題固有のものである。
これらの欠点を考えると、そのような手法は、目に見えない問題インスタンスに一般化せず、現実的な問題サイズへのスケーラビリティを欠き、誤認レベルのオンザフライチューニングと環境の変化に対するリアルタイム適応性の両方を妨げる。
本稿では、これらの問題を克服する任意の重み付きグラフ上でDPPを実行するための強化学習(RL)に基づくトレーニング手法を提案する。
提案手法の核となるのは,エージェントの局所認識モデルの導入,DPP問題の主要成分を蒸留する新しい状態空間の表現,一般化とスケーリングを容易にするグラフニューラルネットワークベースのポリシの利用,古典的手法の騙し目的をRL設定に翻訳する新たな欺取ボーナスの導入である。
広範な実験を通じて、追加の微調整なしに、テスト時に得られたポリシーが一般化し、スケールし、調整可能なレベルのデセプションを享受し、環境の変化にリアルタイムに適応できることが示されます。
関連論文リスト
- Progressive Conservative Adaptation for Evolving Target Domains [76.9274842289221]
従来のドメイン適応は、典型的には、ソースドメインから定常ターゲットドメインに知識を転送する。
このような対象データに対する復元と適応は、時間とともに計算とリソース消費をエスカレートする。
我々は、進歩的保守的適応(PCAda)と呼ばれる、単純で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T04:11:25Z) - Massively Scalable Inverse Reinforcement Learning in Google Maps [3.1244966374281544]
逆強化学習は、ルートレコメンデーションにおいて人間の潜在的嗜好を学習するための強力で一般的な枠組みを提供する。
数億の州と実証軌道で惑星規模の問題に対処したアプローチはない。
我々は、ルーティングコンテキストにおける古典的IRL手法を再検討し、安価で決定論的プランナーと高価で堅牢なポリシーとの間にトレードオフがあることを重要視する。
Receding Horizon Inverse Planning (RHIP)は、従来のIRLアルゴリズムの新たな一般化であり、その計画的地平を通したパフォーマンストレードオフのきめ細かい制御を提供する。
論文 参考訳(メタデータ) (2023-05-18T20:14:28Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Optimal Transport Based Refinement of Physics-Informed Neural Networks [0.0]
我々は、最適輸送(OT)の概念に基づく偏微分方程式(PDE)の解法として、よく知られた物理情報ニューラルネットワーク(PINN)の改良戦略を提案する。
PINNの解法は、完全接続された病理のスペクトルバイアス、不安定な勾配、収束と精度の難しさなど、多くの問題に悩まされている。
本稿では,既存の PINN フレームワークを補完する OT-based sample を用いて,Fokker-Planck-Kolmogorov Equation (FPKE) を解くための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-05-26T02:51:20Z) - Representation Based Complexity Measures for Predicting Generalization
in Deep Learning [0.0]
ディープニューラルネットワークは、非常に過度にパラメータ化されているにもかかわらず、一般化することができる。
近年の研究では、様々な観点からこの現象を検証している。
内部表現の質の観点から一般化の解釈を提供する。
論文 参考訳(メタデータ) (2020-12-04T18:53:44Z) - Learning the Travelling Salesperson Problem Requires Rethinking
Generalization [9.176056742068813]
トラベリングセールスパーソン問題(TSP)のようなグラフ最適化問題に対するニューラルネットワークソルバのエンドツーエンドトレーニングは近年,関心が高まっている。
最先端の学習駆動アプローチは、自明に小さなサイズで訓練された場合、古典的な解法と密接に関係するが、実践的な規模で学習ポリシーを大規模に一般化することはできない。
この研究は、トレーニングで見られるものよりも大きいインスタンスへの一般化を促進する、原則化されたバイアス、モデルアーキテクチャ、学習アルゴリズムを特定するために、最近の論文を統一するエンドツーエンドのニューラルネットワークパイプラインを提示している。
論文 参考訳(メタデータ) (2020-06-12T10:14:15Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。