論文の概要: Optimizing Algorithms From Pairwise User Preferences
- arxiv url: http://arxiv.org/abs/2308.04571v1
- Date: Tue, 8 Aug 2023 20:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:59:19.155580
- Title: Optimizing Algorithms From Pairwise User Preferences
- Title(参考訳): Pairwise User Preferencesによるアルゴリズムの最適化
- Authors: Leonid Keselman, Katherine Shih, Martial Hebert, Aaron Steinfeld
- Abstract要約: ペアワイズユーザの好みに基づいて,アルゴリズムパラメータの高次元設定を最適化するために,SortCMAを導入する。
本手法は,地上の真実を示さずに市販の深度センサをチューニングし,ロボットのソーシャルナビゲーションに応用する。
- 参考スコア(独自算出の注目度): 23.87058308494074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical black-box optimization approaches in robotics focus on learning from
metric scores. However, that is not always possible, as not all developers have
ground truth available. Learning appropriate robot behavior in human-centric
contexts often requires querying users, who typically cannot provide precise
metric scores. Existing approaches leverage human feedback in an attempt to
model an implicit reward function; however, this reward may be difficult or
impossible to effectively capture. In this work, we introduce SortCMA to
optimize algorithm parameter configurations in high dimensions based on
pairwise user preferences. SortCMA efficiently and robustly leverages user
input to find parameter sets without directly modeling a reward. We apply this
method to tuning a commercial depth sensor without ground truth, and to robot
social navigation, which involves highly complex preferences over robot
behavior. We show that our method succeeds in optimizing for the user's goals
and perform a user study to evaluate social navigation results.
- Abstract(参考訳): ロボット工学における典型的なブラックボックス最適化アプローチは、メトリクススコアからの学習に焦点を当てている。
しかし、すべての開発者が真実を理解できるわけではないので、必ずしもそれが可能であるとは限らない。
人間中心のコンテキストで適切なロボットの振る舞いを学ぶには、多くの場合、正確なメトリクススコアを提供できないユーザーをクエリする必要がある。
既存のアプローチでは、暗黙の報酬関数をモデル化するために人間のフィードバックを利用するが、この報酬を効果的に捕獲することは困難または不可能である。
本研究では,ペアワイズユーザの好みに基づいてアルゴリズムパラメータを高次元に最適化するSortCMAを提案する。
SortCMAは、報酬を直接モデル化することなく、ユーザー入力を利用してパラメータセットを見つける。
本手法は,地上の真理を示さずに市販の深度センサをチューニングし,ロボットの行動よりも複雑な嗜好を伴うロボット社会ナビゲーションに適用する。
提案手法は,ユーザの目標を最適化し,ユーザ調査を行い,ソーシャルナビゲーションの結果を評価することに成功している。
関連論文リスト
- Real Evaluations Tractability using Continuous Goal-Directed Actions in
Smart City Applications [3.1158660854608824]
継続的目標指向アクション(CGDA)は、環境から抽出できるあらゆる機能の変更としてアクションをエンコードする。
現在の戦略では、シミュレーションで評価を行い、最終的な関節軌道を実際のロボットに転送する。
EAを用いた評価を減らすための2つの異なるアプローチが提案され、比較された。
論文 参考訳(メタデータ) (2024-02-01T15:38:21Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [76.80594193051837]
メタ適応(MADA)は、複数の既知の知識を一般化し、トレーニング中に最も適した知識を動的に学習できる統合フレームワークである。
我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚および言語タスクに関する他の人気のあるGradsとMADAを比較した。
MADAは、他の人気のあるGradsがGPT-2トレーニングで行なっているAdamよりも3倍のバリデーションパフォーマンスが得られます。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Adaptive Neural Ranking Framework: Toward Maximized Business Goal for
Cascade Ranking Systems [33.46891569350896]
カスケードランキングは、オンライン広告とレコメンデーションシステムにおける大規模なトップk選択問題に広く使われている。
それまでの学習からランクへの取り組みは、モデルに完全な順序やトップクオーダを学習させることに重点を置いていた。
我々はこの手法をアダプティブ・ニューラルランキング・フレームワーク (Adaptive Neural Ranking Framework, ARF) と命名する。
論文 参考訳(メタデータ) (2023-10-16T14:43:02Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - A distributed, plug-n-play algorithm for multi-robot applications with a
priori non-computable objective functions [2.2452191187045383]
マルチロボットアプリケーションでは、ミッションのユーザ定義の目的を一般的な最適化問題として当てはめることができる。
これらの問題には標準勾配の差分型アルゴリズムは適用できない。
本稿では,各ロボットのサブコスト関数を慎重に設計するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-14T20:40:00Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Active Preference Learning using Maximum Regret [10.317601896290467]
本研究では,自律ロボットの動作を直感的に特定するための枠組みとして,能動的嗜好学習について検討する。
能動的嗜好学習では、ロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。
論文 参考訳(メタデータ) (2020-05-08T14:31:31Z) - Human Strategic Steering Improves Performance of Interactive
Optimization [33.54512897507445]
推奨システムでは、何を推奨するかを選択し、最適化タスクはユーザーが推奨するアイテムを推薦する。
我々は、この基本的な仮定は、受動的フィードバック源ではない人間のユーザーによって広範囲に侵害される可能性があると論じる。
我々は,人間と最適化アルゴリズムが協調して1次元関数の最大値を求める機能最適化タスクを設計した。
論文 参考訳(メタデータ) (2020-05-04T06:56:52Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。