論文の概要: Zero-Shot Wireless Indoor Navigation through Physics-Informed
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.06766v2
- Date: Fri, 15 Sep 2023 20:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:27:29.709518
- Title: Zero-Shot Wireless Indoor Navigation through Physics-Informed
Reinforcement Learning
- Title(参考訳): 物理インフォームド強化学習によるゼロショット無線屋内ナビゲーション
- Authors: Mingsheng Yin, Tao Li, Haozhe Lei, Yaqi Hu, Sundeep Rangan, and
Quanyan Zhu
- Abstract要約: 本研究は,無線信号を用いた屋内ロボットナビゲーションのための物理インフォームドRL(PIRL)を提案する。
物理情報を活用することを学習した後、エージェントは、この知識を異なるタスク間で伝達し、微調整なしで未知の環境でナビゲートすることができる。
PIRLは、一般化と性能の観点から、e2e RLとRLベースのソリューションの両方を著しく上回っている。
- 参考スコア(独自算出の注目度): 21.716538715570756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing focus on indoor robot navigation utilizing wireless signals has
stemmed from the capability of these signals to capture high-resolution angular
and temporal measurements. Prior heuristic-based methods, based on radio
frequency propagation, are intuitive and generalizable across simple scenarios,
yet fail to navigate in complex environments. On the other hand, end-to-end
(e2e) deep reinforcement learning (RL), powered by advanced computing
machinery, can explore the entire state space, delivering surprising
performance when facing complex wireless environments. However, the price to
pay is the astronomical amount of training samples, and the resulting policy,
without fine-tuning (zero-shot), is unable to navigate efficiently in new
scenarios unseen in the training phase. To equip the navigation agent with
sample-efficient learning and {zero-shot} generalization, this work proposes a
novel physics-informed RL (PIRL) where a distance-to-target-based cost
(standard in e2e) is augmented with physics-informed reward shaping. The key
intuition is that wireless environments vary, but physics laws persist. After
learning to utilize the physics information, the agent can transfer this
knowledge across different tasks and navigate in an unknown environment without
fine-tuning. The proposed PIRL is evaluated using a wireless digital twin (WDT)
built upon simulations of a large class of indoor environments from the AI
Habitat dataset augmented with electromagnetic (EM) radiation simulation for
wireless signals. It is shown that the PIRL significantly outperforms both e2e
RL and heuristic-based solutions in terms of generalization and performance.
Source code is available at \url{https://github.com/Panshark/PIRL-WIN}.
- Abstract(参考訳): 無線信号を利用した屋内ロボットナビゲーションへの注目の高まりは、これらの信号が高分解能の角・時間計測を捉える能力に起因している。
従来のヒューリスティックな手法は無線周波数の伝搬に基づいており、単純なシナリオで直観的かつ一般化可能であるが、複雑な環境ではナビゲートできない。
一方、先進的なコンピュータ機械によって駆動されるエンド・ツー・エンド(e2e)深部強化学習(RL)は、状態空間全体を探索し、複雑な無線環境に直面すると驚くべきパフォーマンスをもたらす。
しかし、費用は天文学的なトレーニングサンプルの量であり、結果として得られるポリシーは、微調整なしに(ゼロショット)、訓練段階では見当たらない新しいシナリオで効率的にナビゲートできない。
ナビゲーションエージェントにサンプル効率のよい学習と{zero-shot}一般化を導入するため、本研究では、目標間距離(e2e標準)のコストを、物理学のインセンティブシェーピングによって拡張する、新しい物理インフォーメーションrl(pirl)を提案する。
鍵となるのは、ワイヤレス環境はさまざまだが、物理法則は続いていることだ。
物理情報を活用することを学ぶと、エージェントはこの知識を異なるタスク間で伝達し、微調整なしで未知の環境でナビゲートすることができる。
提案したPIRLは,電磁波の電磁放射シミュレーションを付加したAI Habitatデータセットから,屋内環境の大規模シミュレーションに基づいて構築された無線デジタルツイン(WDT)を用いて評価する。
PIRLは、一般化と性能の観点から、e2e RLとヒューリスティックベースのソリューションの両方を著しく上回っている。
ソースコードは \url{https://github.com/Panshark/PIRL-WIN} で入手できる。
関連論文リスト
- Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Reinforcement-learning robotic sailboats: simulator and preliminary
results [0.37918614538294315]
この研究は、無人表面車両(USV)デジタルツインを用いた実実験を再現する仮想海洋環境の開発における主な課題と課題に焦点を当てる。
本稿では、自律的なナビゲーションと制御のために強化学習(RL)エージェントを利用することを考慮し、仮想世界を構築するための重要な機能を紹介する。
論文 参考訳(メタデータ) (2024-01-16T09:04:05Z) - Physics-Driven Turbulence Image Restoration with Stochastic Refinement [80.79900297089176]
大気乱流による画像歪みは、長距離光学画像システムにおいて重要な問題である。
ディープラーニングモデルが現実世界の乱流条件に適応するために、高速で物理学的なシミュレーションツールが導入された。
本稿では,物理統合復元ネットワーク(PiRN)を提案する。
論文 参考訳(メタデータ) (2023-07-20T05:49:21Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - TrainSim: A Railway Simulation Framework for LiDAR and Camera Dataset
Generation [1.2165229201148093]
本稿では,仮想環境下で現実的な鉄道シナリオを生成できる視覚シミュレーションフレームワークを提案する。
シミュレーションされたLiDARとカメラから慣性データとラベル付きデータセットを自動的に生成する。
論文 参考訳(メタデータ) (2023-02-28T11:00:13Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - Zero-Shot Reinforcement Learning with Deep Attention Convolutional
Neural Networks [12.282277258055542]
本研究では、特定の視覚センサ構成を持つ深層注意畳み込みニューラルネットワーク(DACNN)が、より低い計算複雑性で高いドメインとパラメータの変動を持つデータセット上でトレーニングを行うことを示す。
我々の新しいアーキテクチャは、制御対象に対する認識に適応し、知覚ネットワークを事前訓練することなくゼロショット学習を実現する。
論文 参考訳(メタデータ) (2020-01-02T19:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。