論文の概要: Inference-Time Policy Steering through Human Interactions
- arxiv url: http://arxiv.org/abs/2411.16627v1
- Date: Mon, 25 Nov 2024 18:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:23.489913
- Title: Inference-Time Policy Steering through Human Interactions
- Title(参考訳): ヒューマンインタラクションによる推論時ポリシーステアリング
- Authors: Yanwei Wang, Lirui Wang, Yilun Du, Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D'Arpino, Dieter Fox, Julie Shah,
- Abstract要約: 推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
- 参考スコア(独自算出の注目度): 54.02655062969934
- License:
- Abstract: Generative policies trained with human demonstrations can autonomously accomplish multimodal, long-horizon tasks. However, during inference, humans are often removed from the policy execution loop, limiting the ability to guide a pre-trained policy towards a specific sub-goal or trajectory shape among multiple predictions. Naive human intervention may inadvertently exacerbate distribution shift, leading to constraint violations or execution failures. To better align policy output with human intent without inducing out-of-distribution errors, we propose an Inference-Time Policy Steering (ITPS) framework that leverages human interactions to bias the generative sampling process, rather than fine-tuning the policy on interaction data. We evaluate ITPS across three simulated and real-world benchmarks, testing three forms of human interaction and associated alignment distance metrics. Among six sampling strategies, our proposed stochastic sampling with diffusion policy achieves the best trade-off between alignment and distribution shift. Videos are available at https://yanweiw.github.io/itps/.
- Abstract(参考訳): 人間のデモで訓練された生成ポリシーは、多目的で長期にわたるタスクを自律的に達成することができる。
しかしながら、推論中、人間はしばしばポリシー実行ループから取り除かれ、複数の予測の中で特定のサブゴールや軌道形状に向けて事前訓練されたポリシーを導く能力を制限する。
人為的な介入は、必然的に分散シフトを悪化させ、制約違反や実行失敗につながる可能性がある。
そこで本研究では,人間のインタラクションを生かし,生成するサンプリングプロセスに偏りを呈する推論時ポリシーステアリング(ITPS)フレームワークを提案する。
シミュレーションと実世界の3つのベンチマークでITPSを評価し,3種類のヒューマンインタラクションと関連するアライメント距離の測定を行った。
6つのサンプリング戦略のうち,拡散ポリシを用いた確率的サンプリングは,アライメントと分布シフトの最良のトレードオフを実現する。
ビデオはhttps://yanweiw.github.io/itps/.comで公開されている。
関連論文リスト
- IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning [43.19346528232497]
分散シフトに対するポリシーロバスト性を高めるための一般的なアプローチは、インタラクティブな模倣学習である。
我々は,大規模な修正介入を自律的に生成できる新しいデータ生成システムであるIntervenGenを提案する。
人的介入が10回しかなく、政策の堅牢性を最大39倍に向上できることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:06:19Z) - Policy-Guided Diffusion [30.4597043728046]
多くの現実世界の設定では、エージェントは以前の行動ポリシーによって収集されたオフラインデータセットから学ぶ必要がある。
本稿では,自己回帰的オフライン世界モデルに代わる政策誘導拡散法を提案する。
本研究では,政策誘導拡散モデルが目標分布の正規化形態をモデル化し,目標と行動の両ポリシの下で行動可能性のバランスをとることを示す。
論文 参考訳(メタデータ) (2024-04-09T14:46:48Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Learning Latent Traits for Simulated Cooperative Driving Tasks [10.009803620912777]
我々は,人間の行動や嗜好の観点から,人間のコンパクトな潜在表現を捉えることのできるフレームワークを構築した。
そして、注意を散らす運転行動の1形態をモデル化するための軽量なシミュレーション環境、HMIway-envを構築します。
最終的にこの環境を利用して、ドライバを識別する能力と介入ポリシーの有効性の両方を定量化します。
論文 参考訳(メタデータ) (2022-07-20T02:27:18Z) - The Boltzmann Policy Distribution: Accounting for Systematic
Suboptimality in Human Models [5.736353542430439]
本稿では,Boltzmann Policy Distribution(BPD)を紹介する。
BPDはベイズ推論を介して適応し、1回のエピソードで人間の行動を観察することで系統的な偏差を捉える。
我々は,BPDが人間行動の予測と人間-AI協調を可能にすると同時に,模倣学習に基づく人間モデルも可能であることを示す。
論文 参考訳(メタデータ) (2022-04-22T15:26:25Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。