論文の概要: Zero-Shot Wireless Indoor Navigation through Physics-Informed
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.06766v2
- Date: Fri, 15 Sep 2023 20:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:27:29.709518
- Title: Zero-Shot Wireless Indoor Navigation through Physics-Informed
Reinforcement Learning
- Title(参考訳): 物理インフォームド強化学習によるゼロショット無線屋内ナビゲーション
- Authors: Mingsheng Yin, Tao Li, Haozhe Lei, Yaqi Hu, Sundeep Rangan, and
Quanyan Zhu
- Abstract要約: 本研究は,無線信号を用いた屋内ロボットナビゲーションのための物理インフォームドRL(PIRL)を提案する。
物理情報を活用することを学習した後、エージェントは、この知識を異なるタスク間で伝達し、微調整なしで未知の環境でナビゲートすることができる。
PIRLは、一般化と性能の観点から、e2e RLとRLベースのソリューションの両方を著しく上回っている。
- 参考スコア(独自算出の注目度): 21.716538715570756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing focus on indoor robot navigation utilizing wireless signals has
stemmed from the capability of these signals to capture high-resolution angular
and temporal measurements. Prior heuristic-based methods, based on radio
frequency propagation, are intuitive and generalizable across simple scenarios,
yet fail to navigate in complex environments. On the other hand, end-to-end
(e2e) deep reinforcement learning (RL), powered by advanced computing
machinery, can explore the entire state space, delivering surprising
performance when facing complex wireless environments. However, the price to
pay is the astronomical amount of training samples, and the resulting policy,
without fine-tuning (zero-shot), is unable to navigate efficiently in new
scenarios unseen in the training phase. To equip the navigation agent with
sample-efficient learning and {zero-shot} generalization, this work proposes a
novel physics-informed RL (PIRL) where a distance-to-target-based cost
(standard in e2e) is augmented with physics-informed reward shaping. The key
intuition is that wireless environments vary, but physics laws persist. After
learning to utilize the physics information, the agent can transfer this
knowledge across different tasks and navigate in an unknown environment without
fine-tuning. The proposed PIRL is evaluated using a wireless digital twin (WDT)
built upon simulations of a large class of indoor environments from the AI
Habitat dataset augmented with electromagnetic (EM) radiation simulation for
wireless signals. It is shown that the PIRL significantly outperforms both e2e
RL and heuristic-based solutions in terms of generalization and performance.
Source code is available at \url{https://github.com/Panshark/PIRL-WIN}.
- Abstract(参考訳): 無線信号を利用した屋内ロボットナビゲーションへの注目の高まりは、これらの信号が高分解能の角・時間計測を捉える能力に起因している。
従来のヒューリスティックな手法は無線周波数の伝搬に基づいており、単純なシナリオで直観的かつ一般化可能であるが、複雑な環境ではナビゲートできない。
一方、先進的なコンピュータ機械によって駆動されるエンド・ツー・エンド(e2e)深部強化学習(RL)は、状態空間全体を探索し、複雑な無線環境に直面すると驚くべきパフォーマンスをもたらす。
しかし、費用は天文学的なトレーニングサンプルの量であり、結果として得られるポリシーは、微調整なしに(ゼロショット)、訓練段階では見当たらない新しいシナリオで効率的にナビゲートできない。
ナビゲーションエージェントにサンプル効率のよい学習と{zero-shot}一般化を導入するため、本研究では、目標間距離(e2e標準)のコストを、物理学のインセンティブシェーピングによって拡張する、新しい物理インフォーメーションrl(pirl)を提案する。
鍵となるのは、ワイヤレス環境はさまざまだが、物理法則は続いていることだ。
物理情報を活用することを学ぶと、エージェントはこの知識を異なるタスク間で伝達し、微調整なしで未知の環境でナビゲートすることができる。
提案したPIRLは,電磁波の電磁放射シミュレーションを付加したAI Habitatデータセットから,屋内環境の大規模シミュレーションに基づいて構築された無線デジタルツイン(WDT)を用いて評価する。
PIRLは、一般化と性能の観点から、e2e RLとヒューリスティックベースのソリューションの両方を著しく上回っている。
ソースコードは \url{https://github.com/Panshark/PIRL-WIN} で入手できる。
関連論文リスト
- Sim2Real Transfer for Audio-Visual Navigation with Frequency-Adaptive Acoustic Field Prediction [51.71299452862839]
本稿では,音場予測 (AFP) とウェイポイントナビゲーションに切り離して, 音声視覚ナビゲーションのためのsim2real の最初の治療法を提案する。
次に、特定の周波数サブバンドのみを入力とするAFPモデルをトレーニングすることにより、実世界のデータを収集し、シミュレーションと実世界のスペクトル差を測定する。
最後に、実際のロボットプラットフォームを構築し、転送されたポリシーが、音を鳴らすオブジェクトにうまくナビゲートできることを示します。
論文 参考訳(メタデータ) (2024-05-05T06:01:31Z) - Improved Indoor Localization with Machine Learning Techniques for IoT
applications [0.0]
本研究では, 教師付き回帰器, 教師付き分類器, RSSIを用いた屋内位置推定のためのアンサンブル手法の3段階に機械学習アルゴリズムを適用した。
実験の結果は、屋内環境におけるローカライズ精度とロバスト性の観点から、異なる教師付き機械学習技術の有効性に関する洞察を与える。
論文 参考訳(メタデータ) (2024-02-18T02:55:19Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - The SwaNNFlight System: On-the-Fly Sim-to-Real Adaptation via Anchored
Learning [40.99371018933319]
私たちは、市販のハードウェアで作られた四脚のエージェントを訓練し、適応します。
SwaNNFlightは,エージェントの観察を無線で取得・転送できる,オープンソースのファームウェアである。
また、SwaNNFlight System(SwaNNFS)を設計し、類似システム上での学習エージェントのトレーニングと実地適応に関する新たな研究を可能にする。
論文 参考訳(メタデータ) (2023-01-17T16:16:53Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Learning High-Speed Flight in the Wild [101.33104268902208]
複雑な自然環境や人工環境を高速で自律的に飛行するエンド・ツー・エンドのアプローチを提案する。
鍵となる原理は、雑音の知覚観測を直接、後退水平方向に無衝突軌道にマッピングすることである。
現実的なセンサノイズをシミュレートすることにより,シミュレーションから現実環境へのゼロショット転送を実現する。
論文 参考訳(メタデータ) (2021-10-11T09:43:11Z) - On Addressing Heterogeneity in Federated Learning for Autonomous
Vehicles Connected to a Drone Orchestrator [32.61132332561498]
我々は,自動運転車の性能を向上する上で,連邦学習(FL)のシナリオを想定する。
我々は,自律走行車の名目上の操作を損なう可能性のある,特定の種類の臨界物体(CO)の学習を加速する問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-08-05T16:25:48Z) - Cross-Modal Contrastive Learning of Representations for Navigation using
Lightweight, Low-Cost Millimeter Wave Radar for Adverse Environmental
Conditions [1.9822346227538585]
学習に基づく自律ナビゲーションのためのシングルチップミリ波(mmWave)レーダの使用を提案する。
mmWaveレーダ信号はしばしば騒がしいため、表現のためのクロスモーダルコントラスト学習(CM-CLR)法を提案します。
対比学習によるエンドツーエンドの深部RLポリシーは、煙がいっぱいの迷路環境でロボットをうまくナビゲートしました。
論文 参考訳(メタデータ) (2021-01-10T11:21:17Z) - Indoor Point-to-Point Navigation with Deep Reinforcement Learning and
Ultra-wideband [1.6799377888527687]
移動障害や非視線発生はノイズや信頼性の低い信号を生成する。
深部強化学習(RL)で学習した電力効率のよい局所プランナーが,ノイズショートレンジ誘導システムの完全解法として頑健かつ弾力性を持つことを示す。
この結果から, 計算効率のよいエンドツーエンドポリシは, 堅牢でスケーラブルで, 最先端の低コストナビゲーションシステムを実現することができることがわかった。
論文 参考訳(メタデータ) (2020-11-18T12:30:36Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。