論文の概要: Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation
- arxiv url: http://arxiv.org/abs/2307.06333v1
- Date: Wed, 12 Jul 2023 17:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 12:14:23.597682
- Title: Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation
- Title(参考訳): 診断、フィードバック、適応: テスト時間ポリシー適応のためのヒューマン・イン・ザ・ループフレームワーク
- Authors: Andi Peng, Aviv Netanyahu, Mark Ho, Tianmin Shu, Andreea Bobu, Julie
Shah, Pulkit Agrawal
- Abstract要約: ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.266695694005943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policies often fail due to distribution shift -- changes in the state and
reward that occur when a policy is deployed in new environments. Data
augmentation can increase robustness by making the model invariant to
task-irrelevant changes in the agent's observation. However, designers don't
know which concepts are irrelevant a priori, especially when different end
users have different preferences about how the task is performed. We propose an
interactive framework to leverage feedback directly from the user to identify
personalized task-irrelevant concepts. Our key idea is to generate
counterfactual demonstrations that allow users to quickly identify possible
task-relevant and irrelevant concepts. The knowledge of task-irrelevant
concepts is then used to perform data augmentation and thus obtain a policy
adapted to personalized user objectives. We present experiments validating our
framework on discrete and continuous control tasks with real human users. Our
method (1) enables users to better understand agent failure, (2) reduces the
number of demonstrations required for fine-tuning, and (3) aligns the agent to
individual user task preferences.
- Abstract(参考訳): ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
しかし、特に異なるエンドユーザーがタスクの実行方法に関して異なる好みを持っている場合、設計者はどの概念が優先順位と無関係であるかを知らない。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
私たちのキーとなるアイデアは、ユーザがタスク関連で無関係な概念を素早く特定できる、反実的なデモを生成することです。
次にタスク非関連概念の知識を用いてデータ拡張を行い、パーソナライズされたユーザ目的に適合したポリシーを得る。
本稿では,実ユーザによる離散的および連続的制御タスクにおけるフレームワークの検証実験を行う。
提案手法は,エージェントのエラーをよりよく理解し,(2)微調整に必要なデモの数を削減し,(3)エージェントを個々のユーザタスクの好みに合わせて調整する。
関連論文リスト
- Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - To the Noise and Back: Diffusion for Shared Autonomy [2.341116149201203]
拡散モデルの前方および逆拡散過程を変調した共有自律性に対する新しいアプローチを提案する。
我々のフレームワークは望ましい行動の空間上の分布を学習する。
次に、拡散モデルを使用して、ユーザのアクションをこのディストリビューションのサンプルに変換する。
論文 参考訳(メタデータ) (2023-02-23T18:58:36Z) - PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive
leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文 参考訳(メタデータ) (2022-11-15T17:07:40Z) - Relative Behavioral Attributes: Filling the Gap between Symbolic Goal
Specification and Reward Learning from Human Preferences [19.70421486855437]
非専門家のユーザは、エージェントの振る舞いの短いクリップよりも好みを表現することで、複雑な目的を表現できる。
相対的行動属性(Relative Behavioral Attributes)は、正確な目標仕様と、選好ラベルから純粋に学習する報奨の中間として機能する。
本稿では,順序付けられた行動クリップから任意の行動属性をエンコードできる2つの異なるパラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:25:23Z) - Interactive and Visual Prompt Engineering for Ad-hoc Task Adaptation
with Large Language Models [116.25562358482962]
最先端のニューラルネットワークモデルは、教師付きトレーニングを必要とせずに、アドホックな言語タスクを解決するために使用することができる。
PromptIDEを使えば、ユーザはプロンプトのバリエーションを試すことができ、プロンプトのパフォーマンスを視覚化し、反復的にプロンプトを最適化できる。
論文 参考訳(メタデータ) (2022-08-16T17:17:53Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Lifelong Unsupervised Domain Adaptive Person Re-identification with
Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。
これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。
我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文 参考訳(メタデータ) (2021-12-13T13:19:45Z) - Unsupervised Model Personalization while Preserving Privacy and
Scalability: An Open Problem [55.21502268698577]
本研究では,非教師なしモデルパーソナライゼーションの課題について検討する。
この問題を探求するための新しいDual User-Adaptation Framework(DUA)を提供する。
このフレームワークは、サーバ上のモデルパーソナライズとユーザデバイス上のローカルデータ正規化に柔軟にユーザ適応を分散させる。
論文 参考訳(メタデータ) (2020-03-30T09:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。