論文の概要: Optimizing Algorithms From Pairwise User Preferences
- arxiv url: http://arxiv.org/abs/2308.04571v1
- Date: Tue, 8 Aug 2023 20:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:59:19.155580
- Title: Optimizing Algorithms From Pairwise User Preferences
- Title(参考訳): Pairwise User Preferencesによるアルゴリズムの最適化
- Authors: Leonid Keselman, Katherine Shih, Martial Hebert, Aaron Steinfeld
- Abstract要約: ペアワイズユーザの好みに基づいて,アルゴリズムパラメータの高次元設定を最適化するために,SortCMAを導入する。
本手法は,地上の真実を示さずに市販の深度センサをチューニングし,ロボットのソーシャルナビゲーションに応用する。
- 参考スコア(独自算出の注目度): 23.87058308494074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical black-box optimization approaches in robotics focus on learning from
metric scores. However, that is not always possible, as not all developers have
ground truth available. Learning appropriate robot behavior in human-centric
contexts often requires querying users, who typically cannot provide precise
metric scores. Existing approaches leverage human feedback in an attempt to
model an implicit reward function; however, this reward may be difficult or
impossible to effectively capture. In this work, we introduce SortCMA to
optimize algorithm parameter configurations in high dimensions based on
pairwise user preferences. SortCMA efficiently and robustly leverages user
input to find parameter sets without directly modeling a reward. We apply this
method to tuning a commercial depth sensor without ground truth, and to robot
social navigation, which involves highly complex preferences over robot
behavior. We show that our method succeeds in optimizing for the user's goals
and perform a user study to evaluate social navigation results.
- Abstract(参考訳): ロボット工学における典型的なブラックボックス最適化アプローチは、メトリクススコアからの学習に焦点を当てている。
しかし、すべての開発者が真実を理解できるわけではないので、必ずしもそれが可能であるとは限らない。
人間中心のコンテキストで適切なロボットの振る舞いを学ぶには、多くの場合、正確なメトリクススコアを提供できないユーザーをクエリする必要がある。
既存のアプローチでは、暗黙の報酬関数をモデル化するために人間のフィードバックを利用するが、この報酬を効果的に捕獲することは困難または不可能である。
本研究では,ペアワイズユーザの好みに基づいてアルゴリズムパラメータを高次元に最適化するSortCMAを提案する。
SortCMAは、報酬を直接モデル化することなく、ユーザー入力を利用してパラメータセットを見つける。
本手法は,地上の真理を示さずに市販の深度センサをチューニングし,ロボットの行動よりも複雑な嗜好を伴うロボット社会ナビゲーションに適用する。
提案手法は,ユーザの目標を最適化し,ユーザ調査を行い,ソーシャルナビゲーションの結果を評価することに成功している。
関連論文リスト
- Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots [5.523009758632668]
CMA-ES-IGは、ユーザの嗜好学習プロセスの経験を優先することを示す。
我々は,本アルゴリズムが,身体的,社会的なロボット作業にまたがる従来のアプローチよりも直感的であることを示す。
論文 参考訳(メタデータ) (2024-11-17T21:52:58Z) - Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。
我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。
選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Real Evaluations Tractability using Continuous Goal-Directed Actions in
Smart City Applications [3.1158660854608824]
継続的目標指向アクション(CGDA)は、環境から抽出できるあらゆる機能の変更としてアクションをエンコードする。
現在の戦略では、シミュレーションで評価を行い、最終的な関節軌道を実際のロボットに転送する。
EAを用いた評価を減らすための2つの異なるアプローチが提案され、比較された。
論文 参考訳(メタデータ) (2024-02-01T15:38:21Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Active Preference Learning using Maximum Regret [10.317601896290467]
本研究では,自律ロボットの動作を直感的に特定するための枠組みとして,能動的嗜好学習について検討する。
能動的嗜好学習では、ロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。
論文 参考訳(メタデータ) (2020-05-08T14:31:31Z) - Human Strategic Steering Improves Performance of Interactive
Optimization [33.54512897507445]
推奨システムでは、何を推奨するかを選択し、最適化タスクはユーザーが推奨するアイテムを推薦する。
我々は、この基本的な仮定は、受動的フィードバック源ではない人間のユーザーによって広範囲に侵害される可能性があると論じる。
我々は,人間と最適化アルゴリズムが協調して1次元関数の最大値を求める機能最適化タスクを設計した。
論文 参考訳(メタデータ) (2020-05-04T06:56:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。