論文の概要: Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots
- arxiv url: http://arxiv.org/abs/2411.11182v1
- Date: Sun, 17 Nov 2024 21:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:24.351470
- Title: Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots
- Title(参考訳): 推論に基づく支援ロボットのリワード関数最適化におけるユーザエクスペリエンスの向上
- Authors: Nathaniel Dennler, Zhonghao Shi, Stefanos Nikolaidis, Maja Matarić,
- Abstract要約: CMA-ES-IGは、ユーザの嗜好学習プロセスの経験を優先することを示す。
我々は,本アルゴリズムが,身体的,社会的なロボット作業にまたがる従来のアプローチよりも直感的であることを示す。
- 参考スコア(独自算出の注目度): 5.523009758632668
- License:
- Abstract: Assistive robots interact with humans and must adapt to different users' preferences to be effective. An easy and effective technique to learn non-expert users' preferences is through rankings of robot behaviors, for example, robot movement trajectories or gestures. Existing techniques focus on generating trajectories for users to rank that maximize the outcome of the preference learning process. However, the generated trajectories do not appear to reflect the user's preference over repeated interactions. In this work, we design an algorithm to generate trajectories for users to rank that we call Covariance Matrix Adaptation Evolution Strategies with Information Gain (CMA-ES-IG). CMA-ES-IG prioritizes the user's experience of the preference learning process. We show that users find our algorithm more intuitive and easier to use than previous approaches across both physical and social robot tasks. This project's code is hosted at github.com/interaction-lab/CMA-ES-IG
- Abstract(参考訳): 補助ロボットは人間と対話し、異なるユーザの好みに適応する必要がある。
非熟練者の好みを学習するための簡単で効果的なテクニックは、例えばロボットの動きの軌跡やジェスチャーなどのロボットの行動のランク付けを通じてである。
既存の技術は、嗜好学習プロセスの結果を最大化するランク付けのための軌道を生成することに重点を置いている。
しかし、生成された軌跡は、反復的な相互作用よりもユーザの好みを反映していないように見える。
本研究では,CMA-ES-IG(Covariance Matrix Adaptation Evolution Strategies with Information Gain)と呼ばれる,ユーザのランク付けのためのトラジェクトリを生成するアルゴリズムを設計する。
CMA-ES-IGは、ユーザの好み学習プロセスの経験を優先する。
我々は,我々のアルゴリズムが,物理・社会ロボットのタスクにまたがる従来のアプローチよりも,より直感的で使いやすくなっていることを示す。
このプロジェクトのコードはgithub.com/interaction-lab/CMA-ES-IGでホストされている
関連論文リスト
- MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文 参考訳(メタデータ) (2024-10-09T03:27:14Z) - Integrating Human Expertise in Continuous Spaces: A Novel Interactive
Bayesian Optimization Framework with Preference Expected Improvement [0.5148939336441986]
Interactive Machine Learning (IML)は、人間の専門知識を機械学習プロセスに統合することを目指している。
ベイズ最適化(BO)に基づく新しいフレームワークを提案する。
BOは機械学習アルゴリズムと人間とのコラボレーションを可能にする。
論文 参考訳(メタデータ) (2024-01-23T11:14:59Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Optimizing Algorithms From Pairwise User Preferences [23.87058308494074]
ペアワイズユーザの好みに基づいて,アルゴリズムパラメータの高次元設定を最適化するために,SortCMAを導入する。
本手法は,地上の真実を示さずに市販の深度センサをチューニングし,ロボットのソーシャルナビゲーションに応用する。
論文 参考訳(メタデータ) (2023-08-08T20:36:59Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。
本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。
ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文 参考訳(メタデータ) (2022-03-31T23:08:20Z) - Learning Reward Functions from Scale Feedback [11.941038991430837]
一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。
そこで我々は,ユーザがスライダを使ってよりニュアンスな情報を提供するスケールフィードバックを提案する。
シミュレーションにおいてスライダフィードバックの利点を実証し,2つのユーザスタディにおけるアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-10-01T09:45:18Z) - Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。
人口ベーストレーニングの形式は、この自己学習の組織化に使用される。
このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文 参考訳(メタデータ) (2021-01-14T19:07:17Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Active Preference Learning using Maximum Regret [10.317601896290467]
本研究では,自律ロボットの動作を直感的に特定するための枠組みとして,能動的嗜好学習について検討する。
能動的嗜好学習では、ロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。
論文 参考訳(メタデータ) (2020-05-08T14:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。