論文の概要: Simple but Stable, Fast and Safe: Achieve End-to-end Control by High-Fidelity Differentiable Simulation
- arxiv url: http://arxiv.org/abs/2604.10548v1
- Date: Sun, 12 Apr 2026 09:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.093165
- Title: Simple but Stable, Fast and Safe: Achieve End-to-end Control by High-Fidelity Differentiable Simulation
- Title(参考訳): 単純だが安定で、高速で、安全:高忠実性微分可能シミュレーションによるエンドツーエンド制御の実現
- Authors: Fanxing Li, Shengyang Wang, Yuxiang Huang, Fangyu Sun, Yufei Yan, Danping Zou, Wenxian Yu,
- Abstract要約: 障害物回避(Obstacle avoidance)は、四重項が高度なアプリケーションを実行できるようにするための基本的な視覚ベースのタスクである。
本稿では,深度画像を直接低レベルのボディレートコマンドにマッピングする新しいエンドツーエンドポリシーを提案する。
提案手法は,最先端のベースラインの中で,最も成功率が高く,かつ最低のジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロジロ
- 参考スコア(独自算出の注目度): 14.763759592028528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obstacle avoidance is a fundamental vision-based task essential for enabling quadrotors to perform advanced applications. When planning the trajectory, existing approaches both on optimization and learning typically regard quadrotor as a point-mass model, giving path or velocity commands then tracking the commands by outer-loop controller. However, at high speeds, planned trajectories sometimes become dynamically infeasible in actual flight, which beyond the capacity of controller. In this paper, we propose a novel end-to-end policy that directly maps depth images to low-level bodyrate commands by reinforcement learning via differentiable simulation. The high-fidelity simulation in training after parameter identification significantly reduces all the gaps between training, simulation and real world. Analytical process by differentiable simulation provides accurate gradient to ensure efficiently training the low-level policy without expert guidance. The policy employs a lightweight and the most simple inference pipeline that runs without explicit mapping, backbone networks, primitives, recurrent structures, or backend controllers, nor curriculum or privileged guidance. By inferring low-level command directly to the hardware controller, the method enables full flight envelope control and avoids the dynamic-infeasible issue.Experimental results demonstrate that the proposed approach achieves the highest success rate and the lowest jerk among state-of-the-art baselines across multiple benchmarks. The policy also exhibits strong generalization, successfully deploying zero-shot in unseen, outdoor environments while reaching speeds of up to 7.5m/s as well as stably flying in the super-dense forest.
- Abstract(参考訳): 障害物回避(Obstacle avoidance)は、四重項が高度なアプリケーションを実行できるようにするための基本的な視覚ベースのタスクである。
軌道を計画する際には、最適化と学習の両方に既存のアプローチでは、四重項を点質量モデルとみなし、経路または速度コマンドを与えて、外ループコントローラでコマンドを追跡するのが一般的である。
しかし、高速では、実際の飛行で計画された軌道が動的に機能しなくなることがある。
本稿では,深度画像を直接低レベルのボディレートコマンドにマッピングする新しいエンドツーエンドポリシーを提案する。
パラメータ同定後のトレーニングにおける高忠実度シミュレーションは、トレーニング、シミュレーション、実世界のすべてのギャップを著しく減らす。
微分可能シミュレーションによる分析プロセスは、専門家の指導なしに低レベルの政策を効率的に訓練するための正確な勾配を提供する。
このポリシーでは、明示的なマッピング、バックボーンネットワーク、プリミティブ、リカレントな構造、あるいはバックエンドコントローラ、カリキュラムや特権的なガイダンスのない、軽量で最も単純な推論パイプラインが採用されている。
ハードウェアコントローラに直接低レベルコマンドを推論することにより、フルフライトエンベロープ制御が可能となり、動的に実現不可能な問題を回避することができる。
この方針はまた、強い一般化を示し、目に見えない屋外環境にゼロショットを配置し、最高7.5m/sに到達し、超高密度の森で安定して飛行する。
関連論文リスト
- Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study [24.239835581921458]
実世界の四角形におけるゼロショット展開が可能なロバストなRL制御ポリシーを学習するための重要な要因について検討する。
これら5つのテクニックを統合した,PPOベースのトレーニングフレームワークSimpleFlightを開発した。
クレージーフリー四重極に対するSimpleFlightの有効性を検証し,軌道追従誤差を50%以上低減できることを実証した。
論文 参考訳(メタデータ) (2024-12-16T13:31:26Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Learning High-Speed Flight in the Wild [101.33104268902208]
複雑な自然環境や人工環境を高速で自律的に飛行するエンド・ツー・エンドのアプローチを提案する。
鍵となる原理は、雑音の知覚観測を直接、後退水平方向に無衝突軌道にマッピングすることである。
現実的なセンサノイズをシミュレートすることにより,シミュレーションから現実環境へのゼロショット転送を実現する。
論文 参考訳(メタデータ) (2021-10-11T09:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。