論文の概要: Sparsity Prior Regularized Q-learning for Sparse Action Tasks
- arxiv url: http://arxiv.org/abs/2105.08666v1
- Date: Tue, 18 May 2021 16:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:14:33.713850
- Title: Sparsity Prior Regularized Q-learning for Sparse Action Tasks
- Title(参考訳): スパースアクションタスクのためのsparsity prior regularized q-learning
- Authors: Jing-Cheng Pang, Tian Xu, Sheng-Yi Jiang, Yu-Ren Liu, Yang Yu
- Abstract要約: 多くの意思決定タスクでは、ガンファイトゲームで「火」、株式取引で「購入/販売」など、特定の行動は頻度または総量で制限されています。
本稿では,sparseアクションに低い確率を割り当てる参照分布を構築し,その参照分布に明示的な制約を持つ正規化対象を提案する。
正規化ベルマン演算子と正規化最適ポリシーを導出し、エラーの伝播を遅くし、エージェントがよりスパースアクションを取るよう誘導する。
- 参考スコア(独自算出の注目度): 13.010073768896493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many decision-making tasks, some specific actions are limited in their
frequency or total amounts, such as "fire" in the gunfight game and "buy/sell"
in the stock trading. We name such actions as "sparse action". Sparse action
often plays a crucial role in achieving good performance. However, their
Q-values, estimated by \emph{classical Bellman update}, usually suffer from a
large estimation error due to the sparsity of their samples. The \emph{greedy}
policy could be greatly misled by the biased Q-function and takes sparse action
aggressively, which leads to a huge sub-optimality. This paper constructs a
reference distribution that assigns a low probability to sparse action and
proposes a regularized objective with an explicit constraint to the reference
distribution. Furthermore, we derive a regularized Bellman operator and a
regularized optimal policy that can slow down the propagation of error and
guide the agent to take sparse action more carefully. The experiment results
demonstrate that our method achieves state-of-the-art performance on typical
sparse action tasks.
- Abstract(参考訳): 多くの意思決定タスクにおいて、特定のアクションは、銃術の「火」や株式取引の「買い」など、その頻度や総量によって制限される。
我々はそのような行動を「スパースアクション」と呼ぶ。
スパースアクションは、しばしば優れたパフォーマンスを達成する上で重要な役割を果たす。
しかしながら、emph{classical bellman update} によって推定されるそれらのq値は、通常、標本のスパース性のため、大きな推定誤差を被る。
emph{greedy} のポリシーは、バイアス付き Q-函数によって大きく誤解される可能性があり、スパース作用を積極的に行い、大きな準最適をもたらす。
本稿では,sparseアクションに低い確率を割り当てる参照分布を構築し,その参照分布に明示的な制約を持つ正規化対象を提案する。
さらに、正規化ベルマン演算子と正規化最適ポリシーを導出し、エラーの伝播を遅くし、エージェントがよりスパースアクションを取るよう誘導する。
実験の結果,本手法は,典型的なスパース動作タスクにおける最先端性能を実現する。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Distributionally Robust Recourse Action [12.139222986297263]
recourseアクションは、別の結果を受け取るためにインスタンスを修正できる特定の方法を示すことで、特定のアルゴリズム上の決定を説明することを目的としている。
本研究では、モデルシフトの混合の下で有効となる確率の高いリコースアクションを生成する分散ロバスト・リコース・アクション(DiRRAc)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-22T08:52:01Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Realistic Evaluation of Transductive Few-Shot Learning [41.06192162435249]
トランスダクティブ推論は、数ショットの学習で広く使われている。
推論における少数ショットタスクの問合せセット内における任意のクラス分布の効果について検討する。
我々は,3つの広く使用されているデータセットに対して,最先端のトランスダクティブ手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-04-24T03:35:06Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z) - Online Action Learning in High Dimensions: A Conservative Perspective [0.0]
我々は、保守的な高次元崩壊する $epsilon_t$-greedy 則の累積後悔に対する妥当な境界を見出した。
理論的特性に影響を与えずに調整できるので、エンドユーザは、どの程度の安全性を期待できるかを確立するのに十分な柔軟性を持っていることを示す。
論文 参考訳(メタデータ) (2020-09-29T12:25:05Z) - Adaptive Discretization for Adversarial Lipschitz Bandits [85.39106976861702]
リプシッツ・バンディット(Lipschitz bandits)は、大規模で構造化された行動空間を研究する多腕バンディットの顕著なバージョンである。
ここでの中心的なテーマは、アクション空間の適応的な離散化であり、より有望な領域で徐々にズームインする'である。
逆バージョンにおける適応的な離散化のための最初のアルゴリズムを提供し、インスタンス依存の後悔境界を導出する。
論文 参考訳(メタデータ) (2020-06-22T16:06:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。