Fugu-MT 論文翻訳(概要): Deceptive Path Planning via Reinforcement Learning with Graph Neural Networks

論文の概要: Deceptive Path Planning via Reinforcement Learning with Graph Neural Networks

arxiv url: http://arxiv.org/abs/2402.06552v1
Date: Fri, 9 Feb 2024 17:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 16:16:44.342835
Title: Deceptive Path Planning via Reinforcement Learning with Graph Neural Networks
Title（参考訳）: グラフニューラルネットワークを用いた強化学習による知覚経路計画
Authors: Michael Y. Fatemi and Wesley A. Suttle and Brian M. Sadler
Abstract要約: 認知的経路計画(deceptive path planning, DPP)は、真の目標を外部の観測者から隠蔽する経路を設計する問題である。 DPPの既存の方法は、大域的状態観測可能性や完璧なモデル知識のような非現実的な仮定に依存している。本稿では、任意の重み付きグラフ上でDPPを実行するためのトレーニングポリシーの強化学習手法を提案する。
参考スコア（独自算出の注目度）: 11.099595111978653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deceptive path planning (DPP) is the problem of designing a path that hides its true goal from an outside observer. Existing methods for DPP rely on unrealistic assumptions, such as global state observability and perfect model knowledge, and are typically problem-specific, meaning that even minor changes to a previously solved problem can force expensive computation of an entirely new solution. Given these drawbacks, such methods do not generalize to unseen problem instances, lack scalability to realistic problem sizes, and preclude both on-the-fly tunability of deception levels and real-time adaptivity to changing environments. In this paper, we propose a reinforcement learning (RL)-based scheme for training policies to perform DPP over arbitrary weighted graphs that overcomes these issues. The core of our approach is the introduction of a local perception model for the agent, a new state space representation distilling the key components of the DPP problem, the use of graph neural network-based policies to facilitate generalization and scaling, and the introduction of new deception bonuses that translate the deception objectives of classical methods to the RL setting. Through extensive experimentation we show that, without additional fine-tuning, at test time the resulting policies successfully generalize, scale, enjoy tunable levels of deception, and adapt in real-time to changes in the environment.
Abstract（参考訳）: deceptive path planning (dpp) は、実際のゴールを外部のオブザーバーから隠蔽するパスを設計する問題である。 DPPの既存の手法は、大域的な状態観測可能性や完璧なモデル知識のような非現実的な仮定に依存しており、通常は問題固有のものである。これらの欠点を考えると、そのような手法は、目に見えない問題インスタンスに一般化せず、現実的な問題サイズへのスケーラビリティを欠き、誤認レベルのオンザフライチューニングと環境の変化に対するリアルタイム適応性の両方を妨げる。本稿では、これらの問題を克服する任意の重み付きグラフ上でDPPを実行するための強化学習(RL)に基づくトレーニング手法を提案する。提案手法の核となるのは,エージェントの局所認識モデルの導入,DPP問題の主要成分を蒸留する新しい状態空間の表現,一般化とスケーリングを容易にするグラフニューラルネットワークベースのポリシの利用,古典的手法の騙し目的をRL設定に翻訳する新たな欺取ボーナスの導入である。広範な実験を通じて、追加の微調整なしに、テスト時に得られたポリシーが一般化し、スケールし、調整可能なレベルのデセプションを享受し、環境の変化にリアルタイムに適応できることが示されます。

関連論文リスト

Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文参考訳（メタデータ） (2025-05-19T10:40:30Z)
Unsupervised Parameter Efficient Source-free Post-pretraining [52.27955794126508]
教師なしのUpStepを紹介します。ソースドメインからターゲットドメインへのベースモデルを適応するための、ソースフリーのポストプレトレーニングアプローチ。私たちは、Imagenetをベースモデルとして、教師付きおよび教師なしの両方でトレーニングされた、さまざまな一般的なバックボーンアーキテクチャを使用します。
論文参考訳（メタデータ） (2025-02-28T18:54:51Z)
Optimal Classification under Performative Distribution Shift [13.508249764979075]
本稿では,動作効果をプッシュフォワード尺度としてモデル化した新しい視点を提案する。我々は、新しい仮定のセットの下で、パフォーマンスリスクの凸性を証明する。また, 性能リスクの最小化を min-max 変動問題として再定義することにより, 逆向きの頑健な分類との関係を確立する。
論文参考訳（メタデータ） (2024-11-04T12:20:13Z)
Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-04T23:31:35Z)
Federated Continual Learning Goes Online: Uncertainty-Aware Memory Management for Vision Tasks and Beyond [13.867793835583463]
本稿では,破滅的な記憶を解消するための不確実性を考慮したメモリベース手法を提案する。特定の特性を持つサンプルを検索し、そのようなサンプル上でモデルを再訓練することで、このアプローチの可能性を実証する。
論文参考訳（メタデータ） (2024-05-29T09:29:39Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Progressive Conservative Adaptation for Evolving Target Domains [76.9274842289221]
従来のドメイン適応は、典型的には、ソースドメインから定常ターゲットドメインに知識を転送する。このような対象データに対する復元と適応は、時間とともに計算とリソース消費をエスカレートする。我々は、進歩的保守的適応(PCAda)と呼ばれる、単純で効果的なアプローチを提案する。
論文参考訳（メタデータ） (2024-02-07T04:11:25Z)
Massively Scalable Inverse Reinforcement Learning in Google Maps [3.1244966374281544]
逆強化学習は、ルートレコメンデーションにおいて人間の潜在的嗜好を学習するための強力で一般的な枠組みを提供する。数億の州と実証軌道で惑星規模の問題に対処したアプローチはない。我々は、ルーティングコンテキストにおける古典的IRL手法を再検討し、安価で決定論的プランナーと高価で堅牢なポリシーとの間にトレードオフがあることを重要視する。 Receding Horizon Inverse Planning (RHIP)は、従来のIRLアルゴリズムの新たな一般化であり、その計画的地平を通したパフォーマンストレードオフのきめ細かい制御を提供する。
論文参考訳（メタデータ） (2023-05-18T20:14:28Z)
Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文参考訳（メタデータ） (2021-12-20T13:13:05Z)
Predicting Deep Neural Network Generalization with Perturbation Response Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。 PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文参考訳（メタデータ） (2021-06-09T01:37:36Z)
Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。グラフ埋め込みに基づく汎用フレームワークを提案する。提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文参考訳（メタデータ） (2020-03-09T12:25:13Z)
Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文参考訳（メタデータ） (2020-01-14T17:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。