論文の概要: Batch Active Learning of Reward Functions from Human Preferences
- arxiv url: http://arxiv.org/abs/2402.15757v1
- Date: Sat, 24 Feb 2024 08:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 16:58:52.861098
- Title: Batch Active Learning of Reward Functions from Human Preferences
- Title(参考訳): 人間選好による報酬関数のバッチアクティブ学習
- Authors: Erdem B{\i}y{\i}k, Nima Anari, Dorsa Sadigh
- Abstract要約: 嗜好に基づく学習は、ユーザが好みの質問をすることで、信頼できるラベル付けを可能にする。
アクティブクエリ手法は、より情報性の高いデータを生成するために、好みに基づく学習で一般的に使用される。
我々は,データサンプルを極力少なくして,報酬関数の効率的な学習を可能にする,新しいアルゴリズムのセットを開発した。
- 参考スコア(独自算出の注目度): 33.39413552270375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data generation and labeling are often expensive in robot learning.
Preference-based learning is a concept that enables reliable labeling by
querying users with preference questions. Active querying methods are commonly
employed in preference-based learning to generate more informative data at the
expense of parallelization and computation time. In this paper, we develop a
set of novel algorithms, batch active preference-based learning methods, that
enable efficient learning of reward functions using as few data samples as
possible while still having short query generation times and also retaining
parallelizability. We introduce a method based on determinantal point processes
(DPP) for active batch generation and several heuristic-based alternatives.
Finally, we present our experimental results for a variety of robotics tasks in
simulation. Our results suggest that our batch active learning algorithm
requires only a few queries that are computed in a short amount of time. We
showcase one of our algorithms in a study to learn human users' preferences.
- Abstract(参考訳): データ生成とラベリングは、ロボット学習においてしばしば高価である。
嗜好に基づく学習は、ユーザが好みの質問をすることで、信頼できるラベル付けを可能にする概念である。
アクティブクエリ手法は、並列化と計算時間を犠牲にしてより有益なデータを生成するために、選好ベースの学習で一般的に用いられる。
本稿では,クエリ生成時間の短縮と並列性を維持しつつ,データサンプル数を極力少なくして報奨関数の効率的な学習を可能にする,新しいアルゴリズムであるバッチアクティブ・プレファレンスベース学習法を開発した。
本稿では,アクティブバッチ生成のための決定点プロセス(DPP)に基づく手法と,ヒューリスティックな代替手法を提案する。
最後に,シミュレーションにおけるロボット工学の課題について実験結果を示す。
この結果から,我々のバッチ能動学習アルゴリズムでは,短時間で計算されるクエリはごくわずかであることが示唆された。
人間の好みを学習するために,我々のアルゴリズムの1つを紹介した。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Novel Batch Active Learning Approach and Its Application to Synthetic
Aperture Radar Datasets [7.381841249558068]
近年、合成開口レーダ(SAR)データarXiv:2204.00005のシーケンシャルな能動学習が実施されている。
そこで我々は,Dijkstraのコアセット生成用Annulus Core-Set(DAC)とバッチサンプリング用LocalMaxという,バッチアクティブラーニングのための新しい2部構成のアプローチを開発した。
DACとLocalMaxを組み合わせたバッチアクティブラーニングプロセスは、逐次アクティブラーニングとほぼ同じ精度で、バッチサイズに比例して効率的である。
論文 参考訳(メタデータ) (2023-07-19T23:25:21Z) - Algorithm Selection for Deep Active Learning with Imbalanced Datasets [11.902019233549474]
アクティブな学習は、ディープネットワークのトレーニングに必要なラベル付きサンプルの数を減らすことを目的としている。
アクティブな学習戦略が与えられたアプリケーションでうまく機能するか、どれが最善であるかを事前に知るのは難しい。
深層能動学習のための適応型アルゴリズム選択手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T19:59:49Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - Boosting the Learning for Ranking Patterns [6.142272540492935]
本稿では,多基準意思決定問題として,パターンランキング関数の学習問題を定式化する。
本手法は,対話型学習手法を用いて,異なる興味度尺度を1つの重み付き線形ランキング関数に集約する。
良く知られたデータセットを用いて行った実験は、我々のアプローチが実行時間を著しく短縮し、正確なパターンランキングを返すことを示している。
論文 参考訳(メタデータ) (2022-03-05T10:22:44Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。