論文の概要: To the Noise and Back: Diffusion for Shared Autonomy
- arxiv url: http://arxiv.org/abs/2302.12244v4
- Date: Wed, 27 Aug 2025 02:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.265729
- Title: To the Noise and Back: Diffusion for Shared Autonomy
- Title(参考訳): 騒音とバック:共有自律性への拡散
- Authors: Takuma Yoneda, Luzhe Sun, Ge Yang, Bradly Stadie, Matthew Walter,
- Abstract要約: 拡散モデルの前方および逆拡散過程を変調した共有自律性に対する新しいアプローチを提案する。
我々のフレームワークは望ましい行動の空間上の分布を学習する。
次に、拡散モデルを使用して、ユーザのアクションをこのディストリビューションのサンプルに変換する。
- 参考スコア(独自算出の注目度): 5.739826835394077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shared autonomy is an operational concept in which a user and an autonomous agent collaboratively control a robotic system. It provides a number of advantages over the extremes of full-teleoperation and full-autonomy in many settings. Traditional approaches to shared autonomy rely on knowledge of the environment dynamics, a discrete space of user goals that is known a priori, or knowledge of the user's policy -- assumptions that are unrealistic in many domains. Recent works relax some of these assumptions by formulating shared autonomy with model-free deep reinforcement learning (RL). In particular, they no longer need knowledge of the goal space (e.g., that the goals are discrete or constrained) or environment dynamics. However, they need knowledge of a task-specific reward function to train the policy. Unfortunately, such reward specification can be a difficult and brittle process. On top of that, the formulations inherently rely on human-in-the-loop training, and that necessitates them to prepare a policy that mimics users' behavior. In this paper, we present a new approach to shared autonomy that employs a modulation of the forward and reverse diffusion process of diffusion models. Our approach does not assume known environment dynamics or the space of user goals, and in contrast to previous work, it does not require any reward feedback, nor does it require access to the user's policy during training. Instead, our framework learns a distribution over a space of desired behaviors. It then employs a diffusion model to translate the user's actions to a sample from this distribution. Crucially, we show that it is possible to carry out this process in a manner that preserves the user's control authority. We evaluate our framework on a series of challenging continuous control tasks, and analyze its ability to effectively correct user actions while maintaining their autonomy.
- Abstract(参考訳): 共有自律は、ユーザーと自律エージェントがロボットシステムを協調的に制御する運用概念である。
多くの設定において、完全な相互運用と完全な自律性という極端な利点に対して、多くの利点を提供します。
従来の共有自律性へのアプローチは、環境力学の知識、優先事項として知られるユーザ目標の離散的な空間、あるいは多くのドメインで非現実的な仮定に依存する。
最近の研究は、モデルフリーの深層強化学習(RL)で共有自律性を定式化することによって、これらの前提のいくつかを緩和している。
特に,目標空間(例えば,目標が離散的あるいは制約的)や環境ダイナミクスに関する知識はもはや必要ありません。
しかし、政策を訓練するためには、タスク固有の報酬関数の知識が必要である。
残念なことに、そのような報酬仕様は困難で不安定なプロセスである可能性がある。
それに加えて、定式化は本質的には人間のループトレーニングに依存しており、ユーザの振る舞いを模倣するポリシーを作成する必要がある。
本稿では,拡散モデルの前方および逆拡散過程を変調した共有自律性に対する新しいアプローチを提案する。
我々のアプローチは、既知の環境力学やユーザ目標の空間を前提とせず、以前の研究とは対照的に、報酬のフィードバックは必要とせず、トレーニング中にユーザーのポリシーにアクセスする必要もない。
その代わり、我々のフレームワークは望ましい行動の空間上の分布を学習する。
次に、拡散モデルを使用して、ユーザのアクションをこのディストリビューションのサンプルに変換する。
重要なことは、ユーザのコントロール権限を保持する方法で、このプロセスを実行することが可能であることが示される。
当社のフレームワークを,一連の困難な継続的制御タスクで評価し,その自律性を維持しつつ,ユーザの行動を効果的に修正する能力を分析した。
関連論文リスト
- Steering Robots with Inference-Time Interactions [0.5801621787540268]
事前訓練されたポリシーがデプロイメント中にエラーを発生させる場合、ユーザがその動作を修正するための制限されたメカニズムが存在する。
私の研究は、トレーニング済みのポリシーを固定されたスキルレパートリーとして凍結させながら、ユーザーのインタラクションが推論時に行動生成をガイドできるようにする方法を提案する。
具体的には,(1)個別のスキルの切り替えにユーザインタラクションを活用する推論時ステアリング,(2)個別のシンボリックプランで定義されたタスク制約を満たしつつ,ユーザインタラクションによる連続的な動作の編集を可能にするタスクと動作の模倣を提案する。
論文 参考訳(メタデータ) (2025-06-17T07:59:07Z) - Digi-Q: Learning Q-Value Functions for Training Device-Control Agents [73.60512136881279]
Digi-QはVLMベースのアクション値Q関数を訓練し、エージェントポリシーを抽出する。
Digi-Qは、Android-in-the-Wildのユーザスケールデバイス制御タスクにおいて、いくつかの従来手法より優れている。
論文 参考訳(メタデータ) (2025-02-13T18:55:14Z) - Personalisation via Dynamic Policy Fusion [14.948610521764415]
深い強化学習政策は、人間の個人の好みと一致しないかもしれない。
我々は、より実践的なアプローチを提案し、人間のフィードバックの助けを借りて、すでに訓練済みのポリシーをユーザ固有のニーズに適応させる。
提案した動的ポリシー融合アプローチが意図したタスクを一貫して達成していることを実証的に実証する。
論文 参考訳(メタデータ) (2024-09-30T07:23:47Z) - Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots [54.55088169443828]
我々は,ジェネラリストオートパイロットの目標に向けて,オープンソースのエージェントシステムであるCognitive Kernelを紹介する。
主にユーザーに依存して必要な状態情報を提供する自動操縦システムとは異なり、自動操縦システムは独立してタスクを完了しなければならない。
これを実現するために、自動操縦システムでは、ユーザの意図を理解し、様々な現実世界の情報源から必要な情報を積極的に収集し、賢明な判断をする必要がある。
論文 参考訳(メタデータ) (2024-09-16T13:39:05Z) - Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。
特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。
本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-10T21:55:44Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation [20.266695694005943]
ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:55:08Z) - Domain Knowledge Driven Pseudo Labels for Interpretable Goal-Conditioned
Interactive Trajectory Prediction [29.701029725302586]
目標条件付きフレームワークを用いた共同軌道予測問題について検討する。
本研究では,条件付き変分自動エンコーダ(CVAE)モデルを導入し,異なる相互作用モードを潜在空間に明示的にエンコードする。
KLの消滅を回避する新しい手法を提案し、擬似ラベルを用いた解釈可能な対話型潜在空間を誘導する。
論文 参考訳(メタデータ) (2022-03-28T21:41:21Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Online Learning Demands in Max-min Fairness [91.37280766977923]
本稿では,複数のユーザ間の希少リソースの割り当て機構について,効率的で公平で戦略に準拠した方法で記述する。
このメカニズムは複数のラウンドで繰り返され、各ラウンドでユーザの要求が変更される可能性がある。
各ラウンドの最後には、ユーザは受け取ったアロケーションに関するフィードバックを提供し、そのメカニズムが時間の経過とともにユーザの好みを学習することを可能にする。
論文 参考訳(メタデータ) (2020-12-15T22:15:20Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。