論文の概要: Selective Credit Assignment
- arxiv url: http://arxiv.org/abs/2202.09699v1
- Date: Sun, 20 Feb 2022 00:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:14:47.950917
- Title: Selective Credit Assignment
- Title(参考訳): 選択的クレジット割り当て
- Authors: Veronica Chelu, Diana Borsa, Doina Precup, Hado van Hasselt
- Abstract要約: 選択的クレジット代入のための時間差アルゴリズムについて統一的な視点を述べる。
価値に基づく学習と計画アルゴリズムへの重み付けの適用に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 57.41789233550586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient credit assignment is essential for reinforcement learning
algorithms in both prediction and control settings. We describe a unified view
on temporal-difference algorithms for selective credit assignment. These
selective algorithms apply weightings to quantify the contribution of learning
updates. We present insights into applying weightings to value-based learning
and planning algorithms, and describe their role in mediating the backward
credit distribution in prediction and control. Within this space, we identify
some existing online learning algorithms that can assign credit selectively as
special cases, as well as add new algorithms that assign credit backward in
time counterfactually, allowing credit to be assigned off-trajectory and
off-policy.
- Abstract(参考訳): 予測と制御の両方において、強化学習アルゴリズムには効率的なクレジット割り当てが不可欠である。
選択的クレジット代入のための時間差アルゴリズムについて統一的な視点を述べる。
これらの選択アルゴリズムは、学習更新の寄与を定量化するために重み付けを適用する。
我々は,価値ベースの学習と計画アルゴリズムに重み付けを適用することへの洞察を示し,予測と制御における後方信用分布の仲介におけるその役割について述べる。
この領域内では、信用を特別なケースとして選択的に割り当てることができる既存のオンライン学習アルゴリズムと、信用を反事実的に後方に割り当て、信用をオフトラックとオフポリティシーに割り当てる新しいアルゴリズムを識別する。
関連論文リスト
- The Role of Learning Algorithms in Collective Action [8.955918346078935]
本研究では,学習アルゴリズムの特性に大きく依存していることを示す。
このことは、機械学習における集団行動の影響を研究する際に、学習アルゴリズムを考慮に入れる必要性を強調している。
論文 参考訳(メタデータ) (2024-05-10T16:36:59Z) - Learning-Augmented Algorithms with Explicit Predictors [67.02156211760415]
アルゴリズム設計の最近の進歩は、過去のデータと現在のデータから得られた機械学習モデルによる予測の活用方法を示している。
この文脈における以前の研究は、予測器が過去のデータに基づいて事前訓練され、ブラックボックスとして使用されるパラダイムに焦点を当てていた。
本研究では,予測器を解き,アルゴリズムの課題の中で生じる学習問題を統合する。
論文 参考訳(メタデータ) (2024-03-12T08:40:21Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Learning Predictions for Algorithms with Predictions [49.341241064279714]
予測器を学習するアルゴリズムに対して,一般的な設計手法を導入する。
オンライン学習の手法を応用して、敵のインスタンスに対して学習し、堅牢性と一貫性のあるトレードオフを調整し、新しい統計的保証を得る。
両部マッチング,ページマイグレーション,スキーレンタル,ジョブスケジューリングの手法を解析することにより,学習アルゴリズムの導出におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-02-18T17:25:43Z) - Learning to Actively Learn: A Robust Approach [22.75298609290053]
本研究では,アクティブラーニングや純粋探索型マルチアームバンディットといった適応データ収集タスクのアルゴリズム設計手法を提案する。
我々の適応アルゴリズムは、情報理論の下界から導かれる問題の同値クラスに対する逆学習によって学習される。
我々は,訓練手順の安定性と有効性を正当化するための合成実験を行い,実データから導出される課題について評価する。
論文 参考訳(メタデータ) (2020-10-29T06:48:22Z) - Mastering Rate based Curriculum Learning [78.45222238426246]
学習の進行という概念には、学習者のサンプル効率の低下につながるいくつかの欠点があると主張する。
本稿では,習得率の概念に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-14T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。