Fugu-MT 論文翻訳(概要): Batch Active Learning of Reward Functions from Human Preferences

論文の概要: Batch Active Learning of Reward Functions from Human Preferences

arxiv url: http://arxiv.org/abs/2402.15757v1
Date: Sat, 24 Feb 2024 08:07:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 16:58:52.861098
Title: Batch Active Learning of Reward Functions from Human Preferences
Title（参考訳）: 人間選好による報酬関数のバッチアクティブ学習
Authors: Erdem B{\i}y{\i}k, Nima Anari, Dorsa Sadigh
Abstract要約: 嗜好に基づく学習は、ユーザが好みの質問をすることで、信頼できるラベル付けを可能にする。アクティブクエリ手法は、より情報性の高いデータを生成するために、好みに基づく学習で一般的に使用される。我々は,データサンプルを極力少なくして,報酬関数の効率的な学習を可能にする,新しいアルゴリズムのセットを開発した。
参考スコア（独自算出の注目度）: 33.39413552270375
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data generation and labeling are often expensive in robot learning. Preference-based learning is a concept that enables reliable labeling by querying users with preference questions. Active querying methods are commonly employed in preference-based learning to generate more informative data at the expense of parallelization and computation time. In this paper, we develop a set of novel algorithms, batch active preference-based learning methods, that enable efficient learning of reward functions using as few data samples as possible while still having short query generation times and also retaining parallelizability. We introduce a method based on determinantal point processes (DPP) for active batch generation and several heuristic-based alternatives. Finally, we present our experimental results for a variety of robotics tasks in simulation. Our results suggest that our batch active learning algorithm requires only a few queries that are computed in a short amount of time. We showcase one of our algorithms in a study to learn human users' preferences.
Abstract（参考訳）: データ生成とラベリングは、ロボット学習においてしばしば高価である。嗜好に基づく学習は、ユーザが好みの質問をすることで、信頼できるラベル付けを可能にする概念である。アクティブクエリ手法は、並列化と計算時間を犠牲にしてより有益なデータを生成するために、選好ベースの学習で一般的に用いられる。本稿では,クエリ生成時間の短縮と並列性を維持しつつ,データサンプル数を極力少なくして報奨関数の効率的な学習を可能にする,新しいアルゴリズムであるバッチアクティブ・プレファレンスベース学習法を開発した。本稿では,アクティブバッチ生成のための決定点プロセス(DPP)に基づく手法と,ヒューリスティックな代替手法を提案する。最後に,シミュレーションにおけるロボット工学の課題について実験結果を示す。この結果から,我々のバッチ能動学習アルゴリズムでは,短時間で計算されるクエリはごくわずかであることが示唆された。人間の好みを学習するために,我々のアルゴリズムの1つを紹介した。

関連論文リスト

Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems [0.6267574471145215]
本稿では,現代のAIシステムに適用可能な,新たなアクティブラーニングフレームワークを提案する。従来のアクティブな学習手法とは違い、どのデータポイントにラベルを付けるべきかを判断することのみに重点を置いているのに対し、我々のフレームワークは異なるクエリスキームを組み込むという革新的な視点も導入しています。提案する能動学習フレームワークは,他の手法と比較して精度が高く,損失も少ない。
論文参考訳（メタデータ） (2024-12-31T05:12:51Z)
Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文参考訳（メタデータ） (2023-10-20T15:01:55Z)
Novel Batch Active Learning Approach and Its Application to Synthetic Aperture Radar Datasets [7.381841249558068]
近年、合成開口レーダ(SAR)データarXiv:2204.00005のシーケンシャルな能動学習が実施されている。そこで我々は,Dijkstraのコアセット生成用Annulus Core-Set(DAC)とバッチサンプリング用LocalMaxという,バッチアクティブラーニングのための新しい2部構成のアプローチを開発した。 DACとLocalMaxを組み合わせたバッチアクティブラーニングプロセスは、逐次アクティブラーニングとほぼ同じ精度で、バッチサイズに比例して効率的である。
論文参考訳（メタデータ） (2023-07-19T23:25:21Z)
Algorithm Selection for Deep Active Learning with Imbalanced Datasets [11.902019233549474]
アクティブな学習は、ディープネットワークのトレーニングに必要なラベル付きサンプルの数を減らすことを目的としている。アクティブな学習戦略が与えられたアプリケーションでうまく機能するか、どれが最善であるかを事前に知るのは難しい。深層能動学習のための適応型アルゴリズム選択手法を提案する。
論文参考訳（メタデータ） (2023-02-14T19:59:49Z)
NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。 NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文参考訳（メタデータ） (2022-11-15T18:57:46Z)
Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文参考訳（メタデータ） (2022-09-29T08:16:52Z)
ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文参考訳（メタデータ） (2022-07-27T07:46:23Z)
Boosting the Learning for Ranking Patterns [6.142272540492935]
本稿では,多基準意思決定問題として,パターンランキング関数の学習問題を定式化する。本手法は,対話型学習手法を用いて,異なる興味度尺度を1つの重み付き線形ランキング関数に集約する。良く知られたデータセットを用いて行った実験は、我々のアプローチが実行時間を著しく短縮し、正確なパターンランキングを返すことを示している。
論文参考訳（メタデータ） (2022-03-05T10:22:44Z)
Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文参考訳（メタデータ） (2020-07-17T12:51:42Z)
Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。本稿では,更新ルール全体を検出するメタラーニング手法を提案する。これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文参考訳（メタデータ） (2020-07-17T07:38:39Z)
Bayesian active learning for production, a systematic study and a reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文参考訳（メタデータ） (2020-06-17T14:51:11Z)
Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文参考訳（メタデータ） (2020-05-18T08:41:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。