論文の概要: Steering Robots with Inference-Time Interactions
- arxiv url: http://arxiv.org/abs/2506.14287v1
- Date: Tue, 17 Jun 2025 07:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.386501
- Title: Steering Robots with Inference-Time Interactions
- Title(参考訳): 推論時間相互作用を用いたステアリングロボット
- Authors: Yanwei Wang,
- Abstract要約: 事前訓練されたポリシーがデプロイメント中にエラーを発生させる場合、ユーザがその動作を修正するための制限されたメカニズムが存在する。
私の研究は、トレーニング済みのポリシーを固定されたスキルレパートリーとして凍結させながら、ユーザーのインタラクションが推論時に行動生成をガイドできるようにする方法を提案する。
具体的には,(1)個別のスキルの切り替えにユーザインタラクションを活用する推論時ステアリング,(2)個別のシンボリックプランで定義されたタスク制約を満たしつつ,ユーザインタラクションによる連続的な動作の編集を可能にするタスクと動作の模倣を提案する。
- 参考スコア(独自算出の注目度): 0.5801621787540268
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Imitation learning has driven the development of generalist policies capable of autonomously solving multiple tasks. However, when a pretrained policy makes errors during deployment, there are limited mechanisms for users to correct its behavior. While collecting additional data for finetuning can address such issues, doing so for each downstream use case is inefficient at deployment. My research proposes an alternative: keeping pretrained policies frozen as a fixed skill repertoire while allowing user interactions to guide behavior generation toward user preferences at inference time. By making pretrained policies steerable, users can help correct policy errors when the model struggles to generalize-without needing to finetune the policy. Specifically, I propose (1) inference-time steering, which leverages user interactions to switch between discrete skills, and (2) task and motion imitation, which enables user interactions to edit continuous motions while satisfying task constraints defined by discrete symbolic plans. These frameworks correct misaligned policy predictions without requiring additional training, maximizing the utility of pretrained models while achieving inference-time user objectives.
- Abstract(参考訳): 模倣学習は、複数のタスクを自律的に解決できるジェネラリスト政策の開発を促した。
しかしながら、事前訓練されたポリシーがデプロイメント中にエラーを発生させる場合、ユーザがその動作を修正するための制限されたメカニズムが存在する。
微調整のための追加データ収集はそのような問題に対処できるが、下流のユースケースごとに実施することは、デプロイ時に非効率である。
私の研究は、事前訓練されたポリシーを固定されたスキルレパートリーとして保ちつつ、ユーザーのインタラクションが推論時にユーザの好みに向かって行動生成をガイドできるようにする方法を提案する。
事前訓練されたポリシーを操縦可能にすることで、ユーザーは、モデルがポリシーを微調整することなく、一般化に苦労するときに、ポリシーエラーの修正を支援することができる。
具体的には,(1)個別のスキルの切り替えにユーザインタラクションを活用する推論時ステアリング,(2)個別のシンボリックプランで定義されたタスク制約を満たしつつ,ユーザインタラクションによる連続的な動作の編集を可能にするタスクと動作の模倣を提案する。
これらのフレームワークは、追加のトレーニングを必要とせずに、誤ったポリシー予測を修正し、事前訓練されたモデルの実用性を最大化し、推論時のユーザ目的を達成する。
関連論文リスト
- FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。
この報酬は、訓練済みの政策を強化学習で微調整するために使われる。
実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文 参考訳(メタデータ) (2025-01-14T17:15:27Z) - Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。
本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。
提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-25T18:03:50Z) - Dynamic Policy Fusion for User Alignment Without Re-Interaction [14.948610521764415]
深い強化学習政策は、人間の個人の好みと一致しないかもしれない。
我々は、より実践的なアプローチを提案し、人間のフィードバックの助けを借りて、すでに訓練済みのポリシーをユーザ固有のニーズに適応させる。
提案した動的ポリシー融合アプローチが意図したタスクを一貫して達成していることを実証的に実証する。
論文 参考訳(メタデータ) (2024-09-30T07:23:47Z) - Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation [20.266695694005943]
ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:55:08Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - To the Noise and Back: Diffusion for Shared Autonomy [2.341116149201203]
拡散モデルの前方および逆拡散過程を変調した共有自律性に対する新しいアプローチを提案する。
我々のフレームワークは望ましい行動の空間上の分布を学習する。
次に、拡散モデルを使用して、ユーザのアクションをこのディストリビューションのサンプルに変換する。
論文 参考訳(メタデータ) (2023-02-23T18:58:36Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。