論文の概要: Learning Reward Functions from Scale Feedback
- arxiv url: http://arxiv.org/abs/2110.00284v1
- Date: Fri, 1 Oct 2021 09:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:41:58.621240
- Title: Learning Reward Functions from Scale Feedback
- Title(参考訳): スケールフィードバックによるリワード関数の学習
- Authors: Nils Wilde, Erdem B{\i}y{\i}k, Dorsa Sadigh, Stephen L. Smith
- Abstract要約: 一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。
そこで我々は,ユーザがスライダを使ってよりニュアンスな情報を提供するスケールフィードバックを提案する。
シミュレーションにおいてスライダフィードバックの利点を実証し,2つのユーザスタディにおけるアプローチの有効性を検証する。
- 参考スコア(独自算出の注目度): 11.941038991430837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's robots are increasingly interacting with people and need to
efficiently learn inexperienced user's preferences. A common framework is to
iteratively query the user about which of two presented robot trajectories they
prefer. While this minimizes the users effort, a strict choice does not yield
any information on how much one trajectory is preferred. We propose scale
feedback, where the user utilizes a slider to give more nuanced information. We
introduce a probabilistic model on how users would provide feedback and derive
a learning framework for the robot. We demonstrate the performance benefit of
slider feedback in simulations, and validate our approach in two user studies
suggesting that scale feedback enables more effective learning in practice.
- Abstract(参考訳): 今日のロボットはますます人と対話し、経験の浅いユーザの好みを効率的に学ぶ必要がある。
一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。
これはユーザーの努力を最小限に抑えるが、厳格な選択は1つの軌道がどれだけ好まれるかに関する情報を与えない。
本稿では,ユーザがスライダを使ってより詳細な情報を提供するスケールフィードバックを提案する。
本稿では,ロボットにフィードバックを提供し,学習フレームワークを導出する方法に関する確率モデルを提案する。
シミュレーションにおけるスライダフィードバックの性能効果を実証し、スケールフィードバックが実際により効果的な学習を可能にすることを示唆する2つのユーザスタディにおいて、我々のアプローチを検証する。
関連論文リスト
- Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots [5.523009758632668]
CMA-ES-IGは、ユーザの嗜好学習プロセスの経験を優先することを示す。
我々は,本アルゴリズムが,身体的,社会的なロボット作業にまたがる従来のアプローチよりも直感的であることを示す。
論文 参考訳(メタデータ) (2024-11-17T21:52:58Z) - Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration [64.6107798750142]
Vocal Sandboxは、位置のある環境でシームレスな人間とロボットのコラボレーションを可能にするフレームワークである。
我々は,ロボットの能力に対する理解と協調をリアルタイムで構築できる軽量で解釈可能な学習アルゴリズムを設計する。
我々はVocal Sandboxを,コラボレーションギフトバッグアセンブリとLEGOストップモーションアニメーションの2つの設定で評価した。
論文 参考訳(メタデータ) (2024-11-04T20:44:40Z) - Rethinking Annotator Simulation: Realistic Evaluation of Whole-Body PET Lesion Interactive Segmentation Methods [26.55942230051388]
実際のユーザスタディやシミュレートされたアノテータによる対話的セグメンテーションモデルの評価を行う。
実際のユーザスタディは高価で大規模に制限されることが多いが、シミュレーションアノテータ(ロボットユーザとしても知られる)はモデルパフォーマンスを過大評価する傾向がある。
本稿では,クリック変動やアノテータ間の不一致といった人間的要因を取り入れた,より現実的なロボットユーザを提案する。
論文 参考訳(メタデータ) (2024-04-02T10:19:17Z) - PREDILECT: Preferences Delineated with Zero-Shot Language-based
Reasoning in Reinforcement Learning [2.7387720378113554]
ロボット学習の新たな分野として,嗜好に基づく強化学習(RL)が出現している。
我々は、人間が提供するテキストから大言語モデル(LLM)のゼロショット機能を利用する。
シミュレーションシナリオとユーザスタディの両方において、フィードバックとその意味を分析することによって、作業の有効性を明らかにする。
論文 参考訳(メタデータ) (2024-02-23T16:30:05Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - RESUS: Warm-Up Cold Users via Meta-Learning Residual User Preferences in
CTR Prediction [14.807495564177252]
コールドユーザーに対するCTR(Click-Through Rate)予測は、レコメンデーションシステムにおいて難しい課題である。
本稿では,グローバルな嗜好知識の学習を,個々のユーザの残留嗜好の学習から切り離す,RESUSという新しい,効率的なアプローチを提案する。
本手法は, コールドユーザに対するCTR予測精度の向上に有効であり, 各種最先端手法と比較して有効である。
論文 参考訳(メタデータ) (2022-10-28T11:57:58Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z) - Active Preference Learning using Maximum Regret [10.317601896290467]
本研究では,自律ロボットの動作を直感的に特定するための枠組みとして,能動的嗜好学習について検討する。
能動的嗜好学習では、ロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。
論文 参考訳(メタデータ) (2020-05-08T14:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。