論文の概要: Frequency-based Search-control in Dyna
- arxiv url: http://arxiv.org/abs/2002.05822v1
- Date: Fri, 14 Feb 2020 00:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 03:37:07.536570
- Title: Frequency-based Search-control in Dyna
- Title(参考訳): dynaにおける周波数ベース探索制御
- Authors: Yangchen Pan, Jincheng Mei, Amir-massoud Farahmand
- Abstract要約: 本稿では,値関数の高周波領域を探索し,よりシンプルで斬新な探索制御戦略を提案する。
我々は、勾配とヘシアンノルムによる関数の周波数を測定するための簡単な戦略を開発し、このアプローチの理論的正当化を提供する。
- 参考スコア(独自算出の注目度): 22.788846157698636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning has been empirically demonstrated as a
successful strategy to improve sample efficiency. In particular, Dyna is an
elegant model-based architecture integrating learning and planning that
provides huge flexibility of using a model. One of the most important
components in Dyna is called search-control, which refers to the process of
generating state or state-action pairs from which we query the model to acquire
simulated experiences. Search-control is critical in improving learning
efficiency. In this work, we propose a simple and novel search-control strategy
by searching high frequency regions of the value function. Our main intuition
is built on Shannon sampling theorem from signal processing, which indicates
that a high frequency signal requires more samples to reconstruct. We
empirically show that a high frequency function is more difficult to
approximate. This suggests a search-control strategy: we should use states from
high frequency regions of the value function to query the model to acquire more
samples. We develop a simple strategy to locally measure the frequency of a
function by gradient and hessian norms, and provide theoretical justification
for this approach. We then apply our strategy to search-control in Dyna, and
conduct experiments to show its property and effectiveness on benchmark
domains.
- Abstract(参考訳): モデルに基づく強化学習は、サンプル効率を改善するための成功戦略として実証的に実証されている。
特にDynaは、学習と計画を統合するエレガントなモデルベースのアーキテクチャであり、モデルを使用することの柔軟性を提供する。
dynaの最も重要なコンポーネントの1つは、search-controlと呼ばれ、モデルに問い合わせてシミュレーションされた経験を得る状態または状態-アクションペアを生成するプロセスを指す。
探索制御は学習効率の向上に不可欠である。
本研究では,値関数の高周波領域を探索し,単純かつ新しい探索制御手法を提案する。
信号処理からのシャノンサンプリング定理に基づいて, 高周波信号の再構成により多くのサンプルを必要とすることを示す。
我々は,高周波関数の近似がより困難であることを実証的に示す。
値関数の高周波領域からの状態を使用して、より多くのサンプルを取得するためにモデルに問い合わせるべきです。
我々は、勾配とヘシアンノルムによる関数の周波数を局所的に測定する簡単な戦略を開発し、このアプローチの理論的正当化を提供する。
次にDynaの検索制御に我々の戦略を適用し、ベンチマーク領域におけるその特性と有効性を示す実験を行う。
関連論文リスト
- Model predictive control-based value estimation for efficient reinforcement learning [6.8237783245324035]
データ駆動型アプローチにより環境をモデル化するモデル予測制御に基づく改良された強化学習手法を設計する。
学習した環境モデルに基づいて、値関数を推定し、ポリシーを最適化する多段階予測を行う。
本手法は, 学習効率の向上, 局所最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:14Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - DiffNAS: Bootstrapping Diffusion Models by Prompting for Better
Architectures [63.12993314908957]
そこで我々は,DiffNASと呼ばれるベースモデル探索手法を提案する。
GPT-4をスーパーネットとして利用して検索を高速化し,検索メモリを補足して結果を向上する。
厳密な実験により,GPTに基づくシナリオでは,探索効率を2倍に向上できることが示された。
論文 参考訳(メタデータ) (2023-10-07T09:10:28Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - MoDem: Accelerating Visual Model-Based Reinforcement Learning with
Demonstrations [36.44386146801296]
サンプルの低さは、現実世界のアプリケーションに深層強化学習(RL)アルゴリズムをデプロイする上で、依然として最大の課題である。
モデルベースRLのサンプル効率を劇的に向上させることができるのは,ごく少数のデモンストレーションのみである。
本研究では,3つの複雑なビジュオモータ制御領域を実験的に検討し,スパース報酬タスクの完了に150%-250%成功していることを確認した。
論文 参考訳(メタデータ) (2022-12-12T04:28:50Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Sampling Strategy for Fine-Tuning Segmentation Models to Crisis Area
under Scarcity of Data [0.76146285961466]
本研究では,推定モデルとサンプル特性に基づいて,微調整中のデータ収集をガイドする手法を提案する。
我々は,ビルディング検出のリモートセンシングアプリケーションにおいて,セマンティックセグメンテーション(U-Net)の深層学習モデルに適用した。
論文 参考訳(メタデータ) (2022-02-09T23:16:58Z) - Learning Robust Controllers Via Probabilistic Model-Based Policy Search [2.886634516775814]
このような方法で学習したコントローラが、環境の小さな摂動の下で頑健であり、一般化できるかどうかを考察する。
ガウス過程のダイナミックスモデルにおける確率雑音に対する低拘束がポリシー更新を規則化し、より堅牢なコントローラが得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T11:17:31Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。