論文の概要: Learning Real-World Acrobatic Flight from Human Preferences
- arxiv url: http://arxiv.org/abs/2508.18817v1
- Date: Tue, 26 Aug 2025 08:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.763551
- Title: Learning Real-World Acrobatic Flight from Human Preferences
- Title(参考訳): 人間の嗜好から実世界のアクロバティック飛行を学習する
- Authors: Colin Merk, Ismail Geles, Jiaxu Xing, Angel Romero, Giorgia Ramponi, Davide Scaramuzza,
- Abstract要約: 優先度に基づく強化学習(PbRL)により、エージェントは手動で設計された報酬関数を必要とせずに制御ポリシーを学習できる。
本研究では,PbRLのアジャイルドローン制御への応用について検討し,パワーループなどの動的操作の実行に注目した。
我々は、シミュレーションでポリシーを訓練し、それらを現実世界のドローンに移すことに成功し、人間の好みが動きの様式的な性質を強調する複数のアクロバティックな操作を実証した。
- 参考スコア(独自算出の注目度): 25.52648336834609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based reinforcement learning (PbRL) enables agents to learn control policies without requiring manually designed reward functions, making it well-suited for tasks where objectives are difficult to formalize or inherently subjective. Acrobatic flight poses a particularly challenging problem due to its complex dynamics, rapid movements, and the importance of precise execution. In this work, we explore the use of PbRL for agile drone control, focusing on the execution of dynamic maneuvers such as powerloops. Building on Preference-based Proximal Policy Optimization (Preference PPO), we propose Reward Ensemble under Confidence (REC), an extension to the reward learning objective that improves preference modeling and learning stability. Our method achieves 88.4% of the shaped reward performance, compared to 55.2% with standard Preference PPO. We train policies in simulation and successfully transfer them to real-world drones, demonstrating multiple acrobatic maneuvers where human preferences emphasize stylistic qualities of motion. Furthermore, we demonstrate the applicability of our probabilistic reward model in a representative MuJoCo environment for continuous control. Finally, we highlight the limitations of manually designed rewards, observing only 60.7% agreement with human preferences. These results underscore the effectiveness of PbRL in capturing complex, human-centered objectives across both physical and simulated domains.
- Abstract(参考訳): 優先度に基づく強化学習(PbRL)は、エージェントが手動で設計した報酬関数を必要とせずに制御ポリシーを学習することを可能にする。
アクロバティック飛行は、複雑な力学、速い動き、そして正確な実行の重要性によって特に困難な問題を引き起こす。
本研究では,PbRLのアジャイルドローン制御への応用について検討し,パワーループなどの動的操作の実行に注目した。
優先順位に基づく近似ポリシー最適化(Preference PPO)に基づいて,リワード・アンサンブル(Reward Ensemble under Confidence,REC)を提案する。
提案手法は, 標準優先度PPOの55.2%に対して, 形状の報酬性能の88.4%を達成している。
我々は、シミュレーションでポリシーを訓練し、それらを現実世界のドローンに移すことに成功し、人間の好みが動きの様式的な性質を強調する複数のアクロバティックな操作を実証した。
さらに,連続制御のための代表的 MuJoCo 環境における確率的報酬モデルの適用性を示す。
最後に、手動でデザインした報酬の制限を強調し、人間の好みとの60.7%の合意のみを観察する。
これらの結果は、PbRLが物理的およびシミュレートされたドメインにまたがる複雑で人間中心の目的を捕捉する効果を裏付けるものである。
関連論文リスト
- Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics [7.115267332079192]
本稿では,タスク固有の目的を行動用語から切り離す2段階の報酬カリキュラムを提案する。
提案手法では,タスクのみの報酬関数でエージェントを訓練し,効果的な探索を確実にする。
我々は,DeepMind Control Suite,ManiSkill3,および補助的行動目的を含む移動ロボット環境に対するアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-05T12:34:27Z) - FLoRA: Sample-Efficient Preference-based RL via Low-Rank Style Adaptation of Reward Functions [14.26977110112456]
嗜好に基づく強化学習は、事前学習されたロボット行動のスタイル適応に適したアプローチである。
近年の適応的アプローチは、新たな嗜好に適合する報酬モデルがオーバーフィットする、破滅的な報酬の忘れ込み(CRF)に悩まされている。
本手法は,シミュレーション・ベンチマーク・タスクと実世界の複数のロボット・タスクにまたがって,人間の嗜好にロボットの振る舞いを効率よく,効果的に調整できることを示す。
論文 参考訳(メタデータ) (2025-04-14T09:04:14Z) - FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。
RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。
RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:04:02Z) - Optimizing Latent Goal by Learning from Trajectory Preference [18.262362315783268]
優先度目標調整(PGT)というフレームワークを提案する。
PGTは、環境と対話して複数の軌道を収集する、以下のポリシーの指示を可能にする。
選好学習を用いて、初期目標の潜在表現を分類された軌道で微調整する。
論文 参考訳(メタデータ) (2024-12-03T03:27:48Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。