論文の概要: Optimal control of point-to-point navigation in turbulent time-dependent
flows using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.00329v1
- Date: Sat, 27 Feb 2021 21:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 23:07:39.759913
- Title: Optimal control of point-to-point navigation in turbulent time-dependent
flows using Reinforcement Learning
- Title(参考訳): 強化学習を用いた乱流時間依存流れにおけるポイント・ツー・ポイントナビゲーションの最適制御
- Authors: Michele Buzzicotti, Luca Biferale, Fabio Bonaccorso, Patricio Clark di
Leoni and Kristian Gustavsson
- Abstract要約: 複素流体中の2点間の移動時間を最小化する経路を求める問題に関する理論的および数値的な結果を示す。
我々は、ActorCriticアルゴリズムが時間非依存またはカオス的に進化するフロー構成の存在下で準最適解を見つけることができることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present theoretical and numerical results concerning the problem to find
the path that minimizes the time to navigate between two given points in a
complex fluid under realistic navigation constraints. We contrast deterministic
Optimal Navigation (ON) control with stochastic policies obtained by
Reinforcement Learning (RL) algorithms. We show that Actor-Critic RL algorithms
are able to find quasi-optimal solutions in the presence of either
time-independent or chaotically evolving flow configurations. For our
application, ON solutions develop unstable behavior within the typical duration
of the navigation process, and are therefore not useful in practice. We first
explore navigation of turbulent flow using a constant propulsion speed. Based
on a discretized phase-space, the propulsion direction is adjusted with the aim
to minimize the time spent to reach the target. Further, we explore a case
where additional control is obtained by allowing the engine to power off.
Exploiting advection of the underlying flow, allows the target to be reached
with less energy consumption. In this case, we optimize a linear combination
between the total navigation time and the total time the engine is switched
off. Our approach can be generalized to other setups, for example, navigation
under imperfect environmental forecast or with different models for the moving
vessel.
- Abstract(参考訳): そこで本研究では, 複雑な流体中の2点間の移動時間を最小化する経路を求めるために, 問題に関する理論的, 数値的な結果を示す。
決定論的最適ナビゲーション(ON)制御と強化学習(RL)アルゴリズムによる確率的ポリシーを対比する。
本稿では、Actor-Critic RLアルゴリズムが時間非依存またはカオス的に進化するフロー構成の存在下で準最適解を見つけることができることを示す。
本アプリケーションでは,ナビゲーションプロセスの典型的な期間内で不安定な動作が発達するので,実際は役に立たない。
まず,一定の推進速度を用いて乱流の航法を探索する。
離散位相空間に基づいて、目標に到達するのに要する時間を最小化する目的で推進方向を調整する。
さらに,エンジンの電源オフにより追加制御が可能となる場合について検討する。
基礎となる流れのアドベクションを利用することで、ターゲットのエネルギー消費を減らすことができる。
この場合、総ナビゲーション時間とエンジンがオフになる総時間との間の線形組み合わせを最適化する。
私たちのアプローチは、不完全な環境予測下でのナビゲーションや移動船のための異なるモデルなど、他のセットアップに一般化することができます。
関連論文リスト
- Understanding Optimization in Deep Learning with Central Flows [53.66160508990508]
RMSの暗黙的な振る舞いは、微分方程式の「中央流:」によって明示的に捉えられることを示す。
これらのフローは、汎用ニューラルネットワークの長期最適化軌道を経験的に予測できることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:13Z) - Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing [0.0]
本稿では、自動運転車における強化学習(RL)ソリューションの性能向上の問題に対処する。
計画タスクと制御タスクを分離する部分的なエンドツーエンドアルゴリズムを提案する。
従来の制御器のロバスト性を活用することにより,本アルゴリズムは標準のエンドツーエンドアルゴリズムよりもモデルミスマッチに対するロバスト性を向上する。
論文 参考訳(メタデータ) (2023-12-11T14:27:10Z) - AccFlow: Backward Accumulation for Long-Range Optical Flow [70.4251045372285]
本稿では、長距離光フロー推定のためのAccFlowと呼ばれる新しいリカレントフレームワークを提案する。
従来の前方累積よりも後方累積の方が優れていることを示す。
長距離光流量推定におけるAccFlowの有効性を検証する実験
論文 参考訳(メタデータ) (2023-08-25T01:51:26Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Robust Path Following on Rivers Using Bootstrapped Reinforcement
Learning [0.0]
本稿では,内陸海域における自律型表面容器(ASV)の航行制御のための深層強化学習(DRL)エージェントを開発した。
最先端のブートストラップ付きQ-ラーニングアルゴリズムと多用途のトレーニング環境ジェネレータを組み合わせることで、堅牢で正確な舵制御を実現する。
論文 参考訳(メタデータ) (2023-03-24T07:21:27Z) - Globally Optimal Event-Based Divergence Estimation for Ventral Landing [55.29096494880328]
イベントセンシングはバイオインスパイアされた飛行誘導と制御システムの主要なコンポーネントである。
本研究では, イベントカメラを用いた腹側着陸時の表面との接触時間予測について検討する。
これは、着陸時に発生する事象の流れから放射光の流れの速度である発散(逆TTC)を推定することで達成される。
我々のコアコントリビューションは、イベントベースの発散推定のための新しいコントラスト最大化定式化と、コントラストを正確に最大化し、最適な発散値を求めるブランチ・アンド・バウンドアルゴリズムである。
論文 参考訳(メタデータ) (2022-09-27T06:00:52Z) - Time-Optimal Planning for Quadrotor Waypoint Flight [50.016821506107455]
立方体の作動限界における時間-最適軌道の計画は未解決の問題である。
四重項のアクチュエータポテンシャルをフル活用する解を提案する。
我々は、世界最大規模のモーションキャプチャーシステムにおいて、実世界の飛行における我々の方法を検証する。
論文 参考訳(メタデータ) (2021-08-10T09:26:43Z) - Learning Efficient Navigation in Vortical Flow Fields [6.585044528359311]
非定常2次元流れ場を介して固定速度スイマーを操るために,新しい強化学習アルゴリズムを適用した。
このアルゴリズムは、環境の手がかりを深層ニューラルネットワークに入力し、スイマーの行動を決定する。
速度センシングアプローチは、バイオミメティック渦センシングアプローチをほぼ2倍の成功率で上回った。
論文 参考訳(メタデータ) (2021-02-21T07:25:03Z) - Congestion-aware Evacuation Routing using Augmented Reality Devices [96.68280427555808]
複数の目的地間でリアルタイムに個別の避難経路を生成する屋内避難のための渋滞対応ルーティングソリューションを提案する。
建物内の混雑分布をモデル化するために、ユーザエンド拡張現実(AR)デバイスから避難者の位置を集約して、オンザフライで取得した人口密度マップを用いる。
論文 参考訳(メタデータ) (2020-04-25T22:54:35Z) - Reinforcement Meta-Learning for Interception of Maneuvering
Exoatmospheric Targets with Parasitic Attitude Loop [1.7663909228482466]
我々は強化メタラーニング(Reinforcement Meta-Learning)を用いて、運動目標の対空干渉に適した適応型統合誘導、ナビゲーション、制御システムを最適化する。
このシステムは、ストラップダウン・シーカー角と速度ジャイロによる観測を、スラスタのオンオフコマンドに直接マッピングする。
最適化されたポリシーは、探索角度測定ラグ、スラスタ制御ラグ、スケールファクタエラーによる寄生姿勢ループ、角度および回転速度測定におけるガウスノイズなどの寄生効果に適応できることを実証した。
論文 参考訳(メタデータ) (2020-04-18T21:20:59Z) - Enhance the performance of navigation: A two-stage machine learning
approach [13.674463804942837]
リアルタイム交通ナビゲーションはスマートトランスポート技術において重要な機能である。
本稿では,アンサンブル学習の考え方を採用し,正確なナビゲーション結果を与えるための2段階の機械学習モデルを開発する。
論文 参考訳(メタデータ) (2020-04-02T08:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。