論文の概要: Curriculum-Based Reinforcement Learning for Autonomous UAV Navigation in Unknown Curved Tubular Conduit
- arxiv url: http://arxiv.org/abs/2512.10934v1
- Date: Thu, 11 Dec 2025 18:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.557809
- Title: Curriculum-Based Reinforcement Learning for Autonomous UAV Navigation in Unknown Curved Tubular Conduit
- Title(参考訳): 未知曲管路における自律型UAVナビゲーションのためのカリキュラムベース強化学習
- Authors: Zamirddine Mari, Jérôme Pasquet, Julien Seinturier,
- Abstract要約: そこで本研究では,無人機が未知の3次元管の形状を事前に知ることなくナビゲートできる強化学習手法を提案する。
決定論的ベースラインとして使用されるPure Pursuitアルゴリズムは、センターラインへの明示的なアクセスの恩恵を受ける。
直接可視性、指向性メモリ、LiDAR対称性の組み合わせに基づくターンネゴシエーション機構は、安定したナビゲーションを確保するために不可欠である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous drone navigation in confined tubular environments remains a major challenge due to the constraining geometry of the conduits, the proximity of the walls, and the perceptual limitations inherent to such scenarios. We propose a reinforcement learning approach enabling a drone to navigate unknown three-dimensional tubes without any prior knowledge of their geometry, relying solely on local observations from LiDAR and a conditional visual detection of the tube center. In contrast, the Pure Pursuit algorithm, used as a deterministic baseline, benefits from explicit access to the centerline, creating an information asymmetry designed to assess the ability of RL to compensate for the absence of a geometric model. The agent is trained through a progressive Curriculum Learning strategy that gradually exposes it to increasingly curved geometries, where the tube center frequently disappears from the visual field. A turning-negotiation mechanism, based on the combination of direct visibility, directional memory, and LiDAR symmetry cues, proves essential for ensuring stable navigation under such partial observability conditions. Experiments show that the PPO policy acquires robust and generalizable behavior, consistently outperforming the deterministic controller despite its limited access to geometric information. Validation in a high-fidelity 3D environment further confirms the transferability of the learned behavior to a continuous physical dynamics. The proposed approach thus provides a complete framework for autonomous navigation in unknown tubular environments and opens perspectives for industrial, underground, or medical applications where progressing through narrow and weakly perceptive conduits represents a central challenge.
- Abstract(参考訳): 拘束された管状環境における自律型ドローンナビゲーションは、コンデュートの幾何学的制約、壁の近接、そしてそのようなシナリオに固有の知覚的制限により、依然として大きな課題である。
本稿では,LiDARからの局所的な観測と管中心の条件付き視覚的検出のみに頼って,未知の3次元管の形状を事前に知ることなく,ドローンが未知の3次元管をナビゲートできる強化学習手法を提案する。
対照的に、決定論的ベースラインとして使用されるPure Pursuitアルゴリズムは、中心線への明示的なアクセスの恩恵を受け、幾何学的モデルがないことを補うRLの能力を評価するために設計された情報非対称性を作成する。
エージェントはプログレッシブなカリキュラム学習戦略によって訓練され、徐々に曲がりくねった地形に露出し、そこでは管中心が視野からしばしば消える。
直接可視性、指向性メモリ、LiDAR対称性の組み合わせに基づくターン・ネゴシエーション機構は、そのような部分的可観測条件下での安定したナビゲーションを確保するために不可欠である。
実験により、PPOポリシーは、幾何情報へのアクセスが限られているにもかかわらず、決定論的コントローラを一貫して上回り、堅牢で一般化可能な振る舞いを得ることが示された。
高忠実度3D環境における検証は、学習された振る舞いを連続的な物理力学に転送可能であることをさらに確認する。
提案手法は、未知の管状環境における自律航法のための完全な枠組みを提供し、狭く知覚力の弱いコンデュートを進むことが中心的な課題である産業、地下、医療用途の視点を開放する。
関連論文リスト
- Digital Twin Supervised Reinforcement Learning Framework for Autonomous Underwater Navigation [0.0]
本稿では,科学実験に広く利用されているオープンプラットフォームであるBlueROV2の事例を通して,課題を考察する。
本稿では,PPOアルゴリズムに基づく深層強化学習手法を提案する。
以上の結果から, PPO政策は高度に乱雑な環境でのDWAを一貫して上回っていることが示唆された。
論文 参考訳(メタデータ) (2025-12-11T18:52:42Z) - Conceptual Evaluation of Deep Visual Stereo Odometry for the MARWIN Radiation Monitoring Robot in Accelerator Tunnels [0.0]
MARWINロボットは欧州XFELで働き、長い単調な加速器トンネルで自律的な放射線モニタリングを行う。
現在のナビゲーションの概念は、ライダーベースのエッジ検出、車輪/ライダー計測と周期的なQRコード参照、壁距離、回転、長手位置のファジィ制御を組み合わせたものである。
本稿では,DVSO(Deep visual stereo odometry)の3次元幾何学的制約を焦点とする手法を提案する。
論文 参考訳(メタデータ) (2025-11-25T09:22:22Z) - E-MoFlow: Learning Egomotion and Optical Flow from Event Data via Implicit Regularization [38.46024197872764]
オプティカルフローと6-DoFエゴモーションの推定は、通常独立して対処されてきた。
ニューロモルフィック・ビジョンでは、ロバストなデータアソシエーションが欠如しているため、この2つの問題を別々に解決することは不十分な課題である。
本研究では,暗黙の空間的時間的・幾何学的正則化を通じて,運動と光の流れを協調的に最適化する,教師なしのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-14T17:33:44Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - Verification of Visual Controllers via Compositional Geometric Transformations [49.81690518952909]
到達可能な集合の外部近似を生成できる知覚ベースのコントローラのための新しい検証フレームワークを提案する。
提案手法の音質を理論的に保証し,ベンチマーク制御環境における有効性を示す。
論文 参考訳(メタデータ) (2025-07-06T20:22:58Z) - Embodied World Models Emerge from Navigational Task in Open-Ended Environments [5.785697934050656]
プロシージャ的に生成された平面迷路を解決するために,スパース報酬のみで訓練された反復エージェントが,方向,距離,障害物レイアウトなどの計量概念を自律的に内部化できるかどうかを問う。
トレーニングの後、エージェントは、下層の空間モデルにヒントを与える行動である、見えない迷路において、常に準最適経路を生成する。
論文 参考訳(メタデータ) (2025-04-15T17:35:13Z) - Learning to Predict Navigational Patterns from Partial Observations [63.04492958425066]
本稿では,実環境におけるナビゲーションのパターンを,部分的な観察のみから推測する,初めての自己教師型学習(SSL)手法を提案する。
我々は、DSLPフィールドに最大極大グラフを適合させることにより、グローバルなナビゲーションパターンを推論する方法を実証する。
実験により,我々のSSLモデルはnuScenesデータセット上で2つのSOTA教師付きレーングラフ予測モデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-04-26T02:08:46Z) - Robust Path Following on Rivers Using Bootstrapped Reinforcement
Learning [0.0]
本稿では,内陸海域における自律型表面容器(ASV)の航行制御のための深層強化学習(DRL)エージェントを開発した。
最先端のブートストラップ付きQ-ラーニングアルゴリズムと多用途のトレーニング環境ジェネレータを組み合わせることで、堅牢で正確な舵制御を実現する。
論文 参考訳(メタデータ) (2023-03-24T07:21:27Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。