論文の概要: ManeuverNet: A Soft Actor-Critic Framework for Precise Maneuvering of Double-Ackermann-Steering Robots with Optimized Reward Functions
- arxiv url: http://arxiv.org/abs/2602.14726v1
- Date: Mon, 16 Feb 2026 13:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.413455
- Title: ManeuverNet: A Soft Actor-Critic Framework for Precise Maneuvering of Double-Ackermann-Steering Robots with Optimized Reward Functions
- Title(参考訳): ManeuverNet: 最適後退機能を有するダブルアッカーマンステアリングロボットの精密マニキュアのためのソフトアクタクリティカルフレームワーク
- Authors: Kohio Deflesselle, Mélodie Daniel, Aly Magassouba, Miguel Aranda, Olivier Ly,
- Abstract要約: ManeuverNetは、Soft Actor-CriticとCrossQを組み合わせたDRLフレームワークである。
我々は,最新のDRLベースラインとTimed Elastic Bandプランナの両方に対して,ManeuverNetを広範囲に評価した。
実世界の試験では、ManeuverNetは軌道の効率を最大90%向上させ、その堅牢性と実用性を強調した。
- 参考スコア(独自算出の注目度): 0.7322887425853787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous control of double-Ackermann-steering robots is essential in agricultural applications, where robots must execute precise and complex maneuvers within a limited space. Classical methods, such as the Timed Elastic Band (TEB) planner, can address this problem, but they rely on parameter tuning, making them highly sensitive to changes in robot configuration or environment and impractical to deploy without constant recalibration. At the same time, end-to-end deep reinforcement learning (DRL) methods often fail due to unsuitable reward functions for non-holonomic constraints, resulting in sub-optimal policies and poor generalization. To address these challenges, this paper presents ManeuverNet, a DRL framework tailored for double-Ackermann systems, combining Soft Actor-Critic with CrossQ. Furthermore, ManeuverNet introduces four specifically designed reward functions to support maneuver learning. Unlike prior work, ManeuverNet does not depend on expert data or handcrafted guidance. We extensively evaluate ManeuverNet against both state-of-the-art DRL baselines and the TEB planner. Experimental results demonstrate that our framework substantially improves maneuverability and success rates, achieving more than a 40% gain over DRL baselines. Moreover, ManeuverNet effectively mitigates the strong parameter sensitivity observed in the TEB planner. In real-world trials, ManeuverNet achieved up to a 90% increase in maneuvering trajectory efficiency, highlighting its robustness and practical applicability.
- Abstract(参考訳): ダブルアッカーマン・ステアリングロボットの自律的な制御は、限られた空間内でロボットが正確に複雑な操作をしなければならない農業用途において不可欠である。
Timed Elastic Band (TEB) プランナーのような古典的な手法ではこの問題に対処できるが、パラメータチューニングに依存しており、ロボットの設定や環境の変化に非常に敏感であり、定期的な調整なしに展開することができない。
同時に、非ホロノミック制約に対する不適切な報酬関数のため、エンドツーエンドの深層強化学習(DRL)手法は失敗することが多く、亜最適政策と一般化の低さをもたらす。
これらの課題に対処するため,本論文では,ソフトアクター・クリティカルとクロスQを組み合わせたダブルアッカーマンシステムに適したDRLフレームワークであるManeuverNetを提案する。
さらに、ManeuverNetはオペレーティングラーニングをサポートするために、特別に設計された4つの報酬関数を導入した。
以前の作業とは異なり、ManeuverNetは専門家のデータや手作りのガイダンスに依存していない。
我々は,最新のDRLベースラインとTEBプランナの両方に対して,ManeuverNetを広範囲に評価した。
実験の結果,我々のフレームワークは操作性や成功率を大幅に向上し,DRLベースラインよりも40%以上向上していることがわかった。
さらに、ManeuverNetは、TEBプランナーで観測される強いパラメータ感度を効果的に緩和する。
実世界の試験では、ManeuverNetは軌道の効率を最大90%向上させ、その堅牢性と実用性を強調した。
関連論文リスト
- Intrinsic-Motivation Multi-Robot Social Formation Navigation with Coordinated Exploration [7.50564221243905]
協調探索型マルチロボットRLアルゴリズムを提案する。
その中核となるコンポーネントは、政策保守主義を一括して緩和するために設計された自己学習固有の報酬メカニズムである。
ソーシャルフォーメーションナビゲーションベンチマークの実証的な結果は,提案アルゴリズムの優れた性能を示すものである。
論文 参考訳(メタデータ) (2025-12-15T13:03:08Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Efficient Learning of Control Policies for Robust Quadruped Bounding
using Pretrained Neural Networks [15.09037992110481]
境界は, 交渉上の障害に対して, 四足歩行において重要な局面の1つである。
著者らはロバストなバウンディングゲイトをより効率的に学習できる効果的なアプローチを提案した。
著者らは、Jueying Miniの四足歩行ロボットが不均一な地形に接することによる、効率的な計算と良好な移動結果を示す。
論文 参考訳(メタデータ) (2020-11-01T08:06:46Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。