論文の概要: Predictive Preference Learning from Human Interventions
- arxiv url: http://arxiv.org/abs/2510.01545v1
- Date: Thu, 02 Oct 2025 00:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.922911
- Title: Predictive Preference Learning from Human Interventions
- Title(参考訳): 人間の介入による予測的嗜好学習
- Authors: Haoyuan Cai, Zhenghao Peng, Bolei Zhou,
- Abstract要約: 今後の展開を予測するために,PPL(Predictive Preference Learning from Human Interventions)を導入する。
PPLは、各人間の介入をLの将来の時間ステップにブートストラップし、優先地平線(英語版)と呼ばれ、エージェントが同じ行動に追従し、ヒトが優先地平線に同じ介入をすると仮定する。
これらの将来の状態に好みの最適化を適用することにより、専門家の修正は、エージェントが探索されるであろう安全クリティカルな領域に伝播される。
- 参考スコア(独自算出の注目度): 37.039055683595414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from human involvement aims to incorporate the human subject to monitor and correct agent behavior errors. Although most interactive imitation learning methods focus on correcting the agent's action at the current state, they do not adjust its actions in future states, which may be potentially more hazardous. To address this, we introduce Predictive Preference Learning from Human Interventions (PPL), which leverages the implicit preference signals contained in human interventions to inform predictions of future rollouts. The key idea of PPL is to bootstrap each human intervention into L future time steps, called the preference horizon, with the assumption that the agent follows the same action and the human makes the same intervention in the preference horizon. By applying preference optimization on these future states, expert corrections are propagated into the safety-critical regions where the agent is expected to explore, significantly improving learning efficiency and reducing human demonstrations needed. We evaluate our approach with experiments on both autonomous driving and robotic manipulation benchmarks and demonstrate its efficiency and generality. Our theoretical analysis further shows that selecting an appropriate preference horizon L balances coverage of risky states with label correctness, thereby bounding the algorithmic optimality gap. Demo and code are available at: https://metadriverse.github.io/ppl
- Abstract(参考訳): 人間の関与から学ぶことは、人間の対象を組み込んで、エージェントの行動エラーを監視し、修正することを目的としている。
ほとんどのインタラクティブな模倣学習法は、現在の状態におけるエージェントの動作の修正に焦点を合わせているが、将来の状態においてはその動作を調整することはない。
そこで本研究では,人間の介入による予測的選好学習(PPL)を紹介し,人間の介入に含まれる暗黙的選好信号を利用して今後のロールアウトの予測を通知する。
PPLの鍵となる考え方は、人為的介入をLの将来の時間ステップにブートストラップすることであり、これは、エージェントが同じ行動に従い、人間が好みの地平線に同じ介入をするという仮定で、優先地平線と呼ばれる。
これらの将来の状態に好みの最適化を適用することにより、エージェントが探索することを期待する安全クリティカルな領域に専門家の修正が伝播され、学習効率が大幅に向上し、必要な人為的なデモンストレーションが減少する。
我々は,自律走行とロボット操作のベンチマーク実験によるアプローチの評価を行い,その効率と汎用性を実証した。
さらに, 適切な選好地平線Lを選択することは, ラベルの正しさとリスク状態のカバレッジのバランスを保ち, アルゴリズムの最適性ギャップを埋めることを示す。
デモとコードは、https://metadriverse.github.io/ppl.com/で入手できる。
関連論文リスト
- Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。
RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。
RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:04:02Z) - Understanding the Learning Dynamics of Alignment with Human Feedback [17.420727709895736]
本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
論文 参考訳(メタデータ) (2024-03-27T16:39:28Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Active Uncertainty Learning for Human-Robot Interaction: An Implicit
Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。
提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。
結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文 参考訳(メタデータ) (2022-02-15T20:40:06Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。