論文の概要: Learning Multimodal Rewards from Rankings
- arxiv url: http://arxiv.org/abs/2109.12750v1
- Date: Mon, 27 Sep 2021 01:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:45:30.911988
- Title: Learning Multimodal Rewards from Rankings
- Title(参考訳): ランク付けによるマルチモーダル報酬の学習
- Authors: Vivek Myers, Erdem B{\i}y{\i}k, Nima Anari, Dorsa Sadigh
- Abstract要約: 私たちは、単調な報酬を学ぶことを超えて、マルチモーダルな報酬関数を学ぶことに重点を置いています。
混合学習問題としてマルチモーダル報酬学習を定式化する。
我々はOpenAIのLunarLanderのマルチタスク版と本物のFetchロボットを用いて実験とユーザスタディを行う。
- 参考スコア(独自算出の注目度): 7.266985088439535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from human feedback has shown to be a useful approach in acquiring
robot reward functions. However, expert feedback is often assumed to be drawn
from an underlying unimodal reward function. This assumption does not always
hold including in settings where multiple experts provide data or when a single
expert provides data for different tasks -- we thus go beyond learning a
unimodal reward and focus on learning a multimodal reward function. We
formulate the multimodal reward learning as a mixture learning problem and
develop a novel ranking-based learning approach, where the experts are only
required to rank a given set of trajectories. Furthermore, as access to
interaction data is often expensive in robotics, we develop an active querying
approach to accelerate the learning process. We conduct experiments and user
studies using a multi-task variant of OpenAI's LunarLander and a real Fetch
robot, where we collect data from multiple users with different preferences.
The results suggest that our approach can efficiently learn multimodal reward
functions, and improve data-efficiency over benchmark methods that we adapt to
our learning problem.
- Abstract(参考訳): 人間のフィードバックから学ぶことは、ロボット報酬関数の獲得に有用な方法であることが示されている。
しかし、専門家のフィードバックは、基礎となる一助報酬関数から引き出されることが多い。
この仮定は、複数の専門家がデータを提供する設定や、ひとつの専門家が異なるタスクのためにデータを提供する設定を含むとは限らない。
本研究では,混合学習問題としてマルチモーダル報酬学習を定式化し,与えられた特徴量のランク付けのみを専門とする新しいランキングベースの学習手法を開発する。
さらに,ロボット工学では対話データへのアクセスが高価であるため,学習プロセスを高速化するアクティブクエリ手法を開発した。
我々はOpenAIのLunarLanderのマルチタスク版と実際のFetchロボットを用いて実験とユーザスタディを行い、異なる好みの複数のユーザからデータを収集する。
その結果,マルチモーダル報酬関数を効率的に学習でき,学習問題に適応するベンチマーク手法よりもデータ効率が向上できることが示唆された。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - MT-Opt: Continuous Multi-Task Robotic Reinforcement Learning at Scale [103.7609761511652]
大規模集団ロボット学習システムが,行動のレパートリーを同時に獲得できることを示す。
新しいタスクは、以前学んだタスクから継続的にインスタンス化できる。
我々は,7台のロボットから収集したデータを用いて,実世界のタスク12組でシステムを訓練し,評価する。
論文 参考訳(メタデータ) (2021-04-16T16:38:02Z) - Learning Reward Functions from Diverse Sources of Human Feedback:
Optimally Integrating Demonstrations and Preferences [14.683631546064932]
本稿では,複数の情報ソースを統合するためのフレームワークを提案する。
特に,まずユーザデモを利用して報酬関数の信念を初期化するアルゴリズムを提案する。
提案手法は, 理論的に最適であるユーザフレンドリな嗜好クエリを生成するという, 人間のデータ提供能力に寄与する。
論文 参考訳(メタデータ) (2020-06-24T22:45:27Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。