論文の概要: Contextual Exploration Using a Linear Approximation Method Based on
Satisficing
- arxiv url: http://arxiv.org/abs/2112.06452v1
- Date: Mon, 13 Dec 2021 07:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:24:53.878674
- Title: Contextual Exploration Using a Linear Approximation Method Based on
Satisficing
- Title(参考訳): 満足度に基づく線形近似法による文脈探索
- Authors: Akane Minami, Yu Kono, and Tatsuji Takahashi
- Abstract要約: 学習に必要な探索の量は、しばしば非常に多い。
深層強化学習はまた、人間がこれほど多くの探索を達成できないという超人的性能を持つ。
リスク感応性満足度(RS)の線形拡張である線形RS(LinRS)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has enabled human-level or even super-human
performance in various types of games. However, the amount of exploration
required for learning is often quite large. Deep reinforcement learning also
has super-human performance in that no human being would be able to achieve
such amounts of exploration. To address this problem, we focus on the
\textit{satisficing} policy, which is a qualitatively different approach from
that of existing optimization algorithms. Thus, we propose Linear RS (LinRS),
which is a type of satisficing algorithm and a linear extension of
risk-sensitive satisficing (RS), for application to a wider range of tasks. The
generalization of RS provides an algorithm to reduce the volume of exploratory
actions by adopting a different approach from existing optimization algorithms.
LinRS utilizes linear regression and multiclass classification to linearly
approximate both the action value and proportion of action selections required
in the RS calculation. The results of our experiments indicate that LinRS
reduced the number of explorations and run time compared to those of existing
algorithms in contextual bandit problems. These results suggest that a further
generalization of satisficing algorithms may be useful for complex
environments, including those that are to be handled with deep reinforcement
learning.
- Abstract(参考訳): 深層強化学習は、様々な種類のゲームにおいて人間レベルまたはスーパーヒューマンパフォーマンスを可能にした。
しかし、学習に必要な探索の量は、しばしば非常に大きい。
深層強化学習はまた、人間がこれほど多くの探索を達成できないという超人的性能を持つ。
この問題に対処するため,既存の最適化アルゴリズムとは定性的に異なるアプローチであるtextit{satisficing} ポリシーに注目した。
そこで,本稿では,より広いタスクに適用可能なリスク感性満足度(rs)の線形拡張と満足度アルゴリズムの一種である線形rs(linrs)を提案する。
RSの一般化は、既存の最適化アルゴリズムとは異なるアプローチを採用することで探索行動の量を削減するアルゴリズムを提供する。
LinRSは線形回帰とマルチクラス分類を利用して、RS計算に必要なアクション値とアクション選択の比率を線形に近似する。
実験の結果,LinRSは文脈的帯域幅問題における既存のアルゴリズムと比較して探索回数と実行時間を削減した。
これらの結果から, より複雑な環境において, 深層強化学習で扱うことを含む, 充足アルゴリズムのさらなる一般化が有用である可能性が示唆された。
関連論文リスト
- An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Fast Offline Policy Optimization for Large Scale Recommendation [74.78213147859236]
我々は、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。
私たちの貢献は3つの新しいアイデアの組み合わせに基づいている。
我々の推定器は、単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生成する。
論文 参考訳(メタデータ) (2022-08-08T11:54:11Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。
入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文 参考訳(メタデータ) (2020-10-03T09:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。