論文の概要: Computational simulation and the search for a quantitative description
of simple reinforcement schedules
- arxiv url: http://arxiv.org/abs/2111.13943v1
- Date: Sat, 27 Nov 2021 17:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 18:11:54.595986
- Title: Computational simulation and the search for a quantitative description
of simple reinforcement schedules
- Title(参考訳): 簡単な強化スケジュールの定量的記述のための計算シミュレーションと探索
- Authors: Paulo Sergio Panse Silveira, Jos\'e de Oliveira Siqueira, Jo\~ao Lucas
Bernardy, Jessica Santiago, Thiago Cersosimo Meneses, Bianca Sanches Portela,
Marcelo Frota Benvenuti
- Abstract要約: 我々は、強化のスケジュールと相互作用する振る舞いの速度をシミュレートするために、Beakという名前のRスクリプトを提示する。
Beakを使って、異なる強化フィードバック関数(RFF)の評価を可能にするデータをシミュレートした。
RIスケジュールの異なるRFFを、意味、精度、パーシモニー、一般性といった基準として比較しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to discuss schedules of reinforcement in its theoretical and practical
terms pointing to practical limitations on implementing those schedules while
discussing the advantages of computational simulation. In this paper, we
present a R script named Beak, built to simulate rates of behavior interacting
with schedules of reinforcement. Using Beak, we've simulated data that allows
an assessment of different reinforcement feedback functions (RFF). This was
made with unparalleled precision, since simulations provide huge samples of
data and, more importantly, simulated behavior isn't changed by the
reinforcement it produces. Therefore, we can vary it systematically. We've
compared different RFF for RI schedules, using as criteria: meaning, precision,
parsimony and generality. Our results indicate that the best feedback function
for the RI schedule was published by Baum (1981). We also propose that the
model used by Killeen (1975) is a viable feedback function for the RDRL
schedule. We argue that Beak paves the way for greater understanding of
schedules of reinforcement, addressing still open questions about quantitative
features of schedules. Also, they could guide future experiments that use
schedules as theoretical and methodological tools.
- Abstract(参考訳): 本研究の目的は,計算シミュレーションの利点を議論しながら,これらのスケジュールの実装に関する現実的な制限を指摘する理論的・実践的な条件で強化のスケジュールについて議論することである。
本稿では,強化のスケジュールと相互作用する動作の頻度をシミュレートするために,BeakというRスクリプトを提案する。
Beakを使って、異なる強化フィードバック機能(RFF)の評価を可能にするデータをシミュレートした。
シミュレーションは膨大なデータサンプルを提供し、さらに重要なことに、生成する補強によってシミュレーションされた動作は変更されない。
そのため、系統的に異なることができる。
RIスケジュールの異なるRFFを、意味、精度、パーシモニー、一般性といった基準として比較しました。
この結果から, RIスケジュールの最適フィードバック関数はBaum (1981) によって発表された。
また, killeen (1975) が用いたモデルがrdrlスケジュールに対して有効なフィードバック関数であることを示す。
我々は、Beakが強化スケジュールの理解を深め、スケジュールの量的特徴に関する未解決の問題に対処する道を開いたと主張している。
また、理論と方法論のツールとしてスケジュールを使用する将来の実験もガイドできる。
関連論文リスト
- Gem5Pred: Predictive Approaches For Gem5 Simulation Time [0.0]
本稿では,この目的のために特別に作成されたユニークなデータセットを紹介する。
また,異なる命令型がGem5のシミュレーション時間に与える影響を解析した。
我々の優れた回帰モデルでは0.546の平均絶対誤差(MAE)が達成され、トップパフォーマンスの分類モデルは0.696の精度を記録した。
論文 参考訳(メタデータ) (2023-10-10T04:05:26Z) - Generative Modeling of Regular and Irregular Time Series Data via
Koopman VAEs [53.91784369229405]
モデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAEを紹介する。
クープマン理論に触発され、線形写像を用いて潜在条件事前力学を表現する。
以上の結果から,KVAEは,合成および実世界の時系列生成ベンチマークにおいて,最先端のGAN法およびVAE法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-04T07:14:43Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Sequential Learning Of Neural Networks for Prequential MDL [18.475866691786695]
ニューラルネットワークを用いた画像分類データセットの事前記述長の計算手法を評価する。
計算コストを考慮すると、リハーサルによるオンライン学習は好成績であることがわかった。
本稿では,画像分類データセットの集合に対する記述長について述べる。
論文 参考訳(メタデータ) (2022-10-14T16:30:23Z) - DeepVARwT: Deep Learning for a VAR Model with Trend [3.9849889653167208]
本稿では,トレンドと依存構造を最大限に推定するために,ディープラーニング手法を用いた新しい手法を提案する。
この目的のためにLong Short-Term Memory (LSTM) ネットワークが使用される。
シミュレーション研究と実データへの適用について述べる。
論文 参考訳(メタデータ) (2022-09-21T18:23:03Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - CausalSim: A Causal Framework for Unbiased Trace-Driven Simulation [25.620312665350028]
CausalSimは、バイアスのないトレース駆動シミュレーションのための因果的フレームワークである。
トレース収集中にシステム力学の因果モデルと下層のシステム条件を捉える潜在因子を学習する。
専門家が設計し、教師付き学習ベースラインと比較して、エラーを平均で53%、61%削減する。
論文 参考訳(メタデータ) (2022-01-05T20:45:24Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Coping With Simulators That Don't Always Return [15.980496707498535]
特定の入力に対して返却できない決定論的シミュレータにプロセスノイズを加えることで生じる非効率性について検討する。
本研究では,シミュレータが高い確率で成功するような摂動を提案するために,条件付き正規化フローのトレーニング方法を示す。
論文 参考訳(メタデータ) (2020-03-28T23:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。