論文の概要: Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots
- arxiv url: http://arxiv.org/abs/2411.11182v1
- Date: Sun, 17 Nov 2024 21:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:24.351470
- Title: Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots
- Title(参考訳): 推論に基づく支援ロボットのリワード関数最適化におけるユーザエクスペリエンスの向上
- Authors: Nathaniel Dennler, Zhonghao Shi, Stefanos Nikolaidis, Maja Matarić,
- Abstract要約: CMA-ES-IGは、ユーザの嗜好学習プロセスの経験を優先することを示す。
我々は,本アルゴリズムが,身体的,社会的なロボット作業にまたがる従来のアプローチよりも直感的であることを示す。
- 参考スコア(独自算出の注目度): 5.523009758632668
- License:
- Abstract: Assistive robots interact with humans and must adapt to different users' preferences to be effective. An easy and effective technique to learn non-expert users' preferences is through rankings of robot behaviors, for example, robot movement trajectories or gestures. Existing techniques focus on generating trajectories for users to rank that maximize the outcome of the preference learning process. However, the generated trajectories do not appear to reflect the user's preference over repeated interactions. In this work, we design an algorithm to generate trajectories for users to rank that we call Covariance Matrix Adaptation Evolution Strategies with Information Gain (CMA-ES-IG). CMA-ES-IG prioritizes the user's experience of the preference learning process. We show that users find our algorithm more intuitive and easier to use than previous approaches across both physical and social robot tasks. This project's code is hosted at github.com/interaction-lab/CMA-ES-IG
- Abstract(参考訳): 補助ロボットは人間と対話し、異なるユーザの好みに適応する必要がある。
非熟練者の好みを学習するための簡単で効果的なテクニックは、例えばロボットの動きの軌跡やジェスチャーなどのロボットの行動のランク付けを通じてである。
既存の技術は、嗜好学習プロセスの結果を最大化するランク付けのための軌道を生成することに重点を置いている。
しかし、生成された軌跡は、反復的な相互作用よりもユーザの好みを反映していないように見える。
本研究では,CMA-ES-IG(Covariance Matrix Adaptation Evolution Strategies with Information Gain)と呼ばれる,ユーザのランク付けのためのトラジェクトリを生成するアルゴリズムを設計する。
CMA-ES-IGは、ユーザの好み学習プロセスの経験を優先する。
我々は,我々のアルゴリズムが,物理・社会ロボットのタスクにまたがる従来のアプローチよりも,より直感的で使いやすくなっていることを示す。
このプロジェクトのコードはgithub.com/interaction-lab/CMA-ES-IGでホストされている
関連論文リスト
- Efficiently Generating Expressive Quadruped Behaviors via Language-Guided Preference Learning [25.841585208296998]
表現力のあるロボット行動は、社会環境においてロボットが広く受け入れられるのに不可欠である。
現在の手法は、効率は良いが低解像度の自然言語入力に依存するか、人間の好みから学ぶかのいずれかであり、高解像度ではあるがサンプル非効率である。
本稿では、事前学習したLGPL(Language-Guided Preference Learning)の事前学習を活用する新しいアプローチを提案する。
提案手法はLGPL(Language-Guided Preference Learning)と呼ばれ,LLMを用いて初期行動サンプルを生成し,好みに基づくフィードバックによって洗練し,人間の期待と密接に一致した行動学習を行う。
論文 参考訳(メタデータ) (2025-02-06T02:07:18Z) - Contrastive Learning from Exploratory Actions: Leveraging Natural Interactions for Preference Elicitation [6.033491390990401]
探索行動(CLEA)からの対照的な学習を提案する。
CLEAは、完全性、単純性、最小性、説明可能性という4つの指標よりもユーザの好みを引き出す際に、より優れた自己管理機能を備えている。
論文 参考訳(メタデータ) (2025-01-02T17:26:01Z) - Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment [73.14105098897696]
本研究では,人間の嗜好フィードバックをはるかに少なくして視覚的報酬を学習するための表現適応型選好学習(RAPL)を提案する。
RAPLは、エンドユーザの視覚表現に合わせて微調整された事前学習された視覚エンコーダに焦点を合わせ、特徴マッチングによって密集した視覚報酬を構築する。
RAPLは人間の嗜好に沿った報酬を学習し、より効率的に嗜好データを使用し、ロボットの具体化を一般化できることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:04:02Z) - MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文 参考訳(メタデータ) (2024-10-09T03:27:14Z) - Integrating Human Expertise in Continuous Spaces: A Novel Interactive
Bayesian Optimization Framework with Preference Expected Improvement [0.5148939336441986]
Interactive Machine Learning (IML)は、人間の専門知識を機械学習プロセスに統合することを目指している。
ベイズ最適化(BO)に基づく新しいフレームワークを提案する。
BOは機械学習アルゴリズムと人間とのコラボレーションを可能にする。
論文 参考訳(メタデータ) (2024-01-23T11:14:59Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - What Matters to You? Towards Visual Representation Alignment for Robot
Learning [81.30964736676103]
人のために運用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。
本稿では、視覚的表現アライメント問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。
論文 参考訳(メタデータ) (2023-10-11T23:04:07Z) - Optimizing Algorithms From Pairwise User Preferences [23.87058308494074]
ペアワイズユーザの好みに基づいて,アルゴリズムパラメータの高次元設定を最適化するために,SortCMAを導入する。
本手法は,地上の真実を示さずに市販の深度センサをチューニングし,ロボットのソーシャルナビゲーションに応用する。
論文 参考訳(メタデータ) (2023-08-08T20:36:59Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Learning Reward Functions from Scale Feedback [11.941038991430837]
一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。
そこで我々は,ユーザがスライダを使ってよりニュアンスな情報を提供するスケールフィードバックを提案する。
シミュレーションにおいてスライダフィードバックの利点を実証し,2つのユーザスタディにおけるアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-10-01T09:45:18Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。