論文の概要: Learning Real-World Acrobatic Flight from Human Preferences
- arxiv url: http://arxiv.org/abs/2508.18817v1
- Date: Tue, 26 Aug 2025 08:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.763551
- Title: Learning Real-World Acrobatic Flight from Human Preferences
- Title(参考訳): 人間の嗜好から実世界のアクロバティック飛行を学習する
- Authors: Colin Merk, Ismail Geles, Jiaxu Xing, Angel Romero, Giorgia Ramponi, Davide Scaramuzza,
- Abstract要約: 優先度に基づく強化学習(PbRL)により、エージェントは手動で設計された報酬関数を必要とせずに制御ポリシーを学習できる。
本研究では,PbRLのアジャイルドローン制御への応用について検討し,パワーループなどの動的操作の実行に注目した。
我々は、シミュレーションでポリシーを訓練し、それらを現実世界のドローンに移すことに成功し、人間の好みが動きの様式的な性質を強調する複数のアクロバティックな操作を実証した。
- 参考スコア(独自算出の注目度): 25.52648336834609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (PbRL) enables agents to learn control policies without requiring manually designed reward functions, making it well-suited for tasks where objectives are difficult to formalize or inherently subjective. Acrobatic flight poses a particularly challenging problem due to its complex dynamics, rapid movements, and the importance of precise execution. In this work, we explore the use of PbRL for agile drone control, focusing on the execution of dynamic maneuvers such as powerloops. Building on Preference-based Proximal Policy Optimization (Preference PPO), we propose Reward Ensemble under Confidence (REC), an extension to the reward learning objective that improves preference modeling and learning stability. Our method achieves 88.4% of the shaped reward performance, compared to 55.2% with standard Preference PPO. We train policies in simulation and successfully transfer them to real-world drones, demonstrating multiple acrobatic maneuvers where human preferences emphasize stylistic qualities of motion. Furthermore, we demonstrate the applicability of our probabilistic reward model in a representative MuJoCo environment for continuous control. Finally, we highlight the limitations of manually designed rewards, observing only 60.7% agreement with human preferences. These results underscore the effectiveness of PbRL in capturing complex, human-centered objectives across both physical and simulated domains.
- Abstract(参考訳): 優先度に基づく強化学習(PbRL)は、エージェントが手動で設計した報酬関数を必要とせずに制御ポリシーを学習することを可能にする。
アクロバティック飛行は、複雑な力学、速い動き、そして正確な実行の重要性によって特に困難な問題を引き起こす。
本研究では,PbRLのアジャイルドローン制御への応用について検討し,パワーループなどの動的操作の実行に注目した。
優先順位に基づく近似ポリシー最適化(Preference PPO)に基づいて,リワード・アンサンブル(Reward Ensemble under Confidence,REC)を提案する。
提案手法は, 標準優先度PPOの55.2%に対して, 形状の報酬性能の88.4%を達成している。
我々は、シミュレーションでポリシーを訓練し、それらを現実世界のドローンに移すことに成功し、人間の好みが動きの様式的な性質を強調する複数のアクロバティックな操作を実証した。
さらに,連続制御のための代表的 MuJoCo 環境における確率的報酬モデルの適用性を示す。
最後に、手動でデザインした報酬の制限を強調し、人間の好みとの60.7%の合意のみを観察する。
これらの結果は、PbRLが物理的およびシミュレートされたドメインにまたがる複雑で人間中心の目的を捕捉する効果を裏付けるものである。
関連論文リスト
- FLoRA: Sample-Efficient Preference-based RL via Low-Rank Style Adaptation of Reward Functions [14.26977110112456]
嗜好に基づく強化学習は、事前学習されたロボット行動のスタイル適応に適したアプローチである。
近年の適応的アプローチは、新たな嗜好に適合する報酬モデルがオーバーフィットする、破滅的な報酬の忘れ込み(CRF)に悩まされている。
本手法は,シミュレーション・ベンチマーク・タスクと実世界の複数のロボット・タスクにまたがって,人間の嗜好にロボットの振る舞いを効率よく,効果的に調整できることを示す。
論文 参考訳(メタデータ) (2025-04-14T09:04:14Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Optimizing Latent Goal by Learning from Trajectory Preference [18.262362315783268]
優先度目標調整(PGT)というフレームワークを提案する。
PGTは、環境と対話して複数の軌道を収集する、以下のポリシーの指示を可能にする。
選好学習を用いて、初期目標の潜在表現を分類された軌道で微調整する。
論文 参考訳(メタデータ) (2024-12-03T03:27:48Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。