論文の概要: Computational simulation and the search for a quantitative description
of simple reinforcement schedules
- arxiv url: http://arxiv.org/abs/2111.13943v1
- Date: Sat, 27 Nov 2021 17:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 18:11:54.595986
- Title: Computational simulation and the search for a quantitative description
of simple reinforcement schedules
- Title(参考訳): 簡単な強化スケジュールの定量的記述のための計算シミュレーションと探索
- Authors: Paulo Sergio Panse Silveira, Jos\'e de Oliveira Siqueira, Jo\~ao Lucas
Bernardy, Jessica Santiago, Thiago Cersosimo Meneses, Bianca Sanches Portela,
Marcelo Frota Benvenuti
- Abstract要約: 我々は、強化のスケジュールと相互作用する振る舞いの速度をシミュレートするために、Beakという名前のRスクリプトを提示する。
Beakを使って、異なる強化フィードバック関数(RFF)の評価を可能にするデータをシミュレートした。
RIスケジュールの異なるRFFを、意味、精度、パーシモニー、一般性といった基準として比較しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to discuss schedules of reinforcement in its theoretical and practical
terms pointing to practical limitations on implementing those schedules while
discussing the advantages of computational simulation. In this paper, we
present a R script named Beak, built to simulate rates of behavior interacting
with schedules of reinforcement. Using Beak, we've simulated data that allows
an assessment of different reinforcement feedback functions (RFF). This was
made with unparalleled precision, since simulations provide huge samples of
data and, more importantly, simulated behavior isn't changed by the
reinforcement it produces. Therefore, we can vary it systematically. We've
compared different RFF for RI schedules, using as criteria: meaning, precision,
parsimony and generality. Our results indicate that the best feedback function
for the RI schedule was published by Baum (1981). We also propose that the
model used by Killeen (1975) is a viable feedback function for the RDRL
schedule. We argue that Beak paves the way for greater understanding of
schedules of reinforcement, addressing still open questions about quantitative
features of schedules. Also, they could guide future experiments that use
schedules as theoretical and methodological tools.
- Abstract(参考訳): 本研究の目的は,計算シミュレーションの利点を議論しながら,これらのスケジュールの実装に関する現実的な制限を指摘する理論的・実践的な条件で強化のスケジュールについて議論することである。
本稿では,強化のスケジュールと相互作用する動作の頻度をシミュレートするために,BeakというRスクリプトを提案する。
Beakを使って、異なる強化フィードバック機能(RFF)の評価を可能にするデータをシミュレートした。
シミュレーションは膨大なデータサンプルを提供し、さらに重要なことに、生成する補強によってシミュレーションされた動作は変更されない。
そのため、系統的に異なることができる。
RIスケジュールの異なるRFFを、意味、精度、パーシモニー、一般性といった基準として比較しました。
この結果から, RIスケジュールの最適フィードバック関数はBaum (1981) によって発表された。
また, killeen (1975) が用いたモデルがrdrlスケジュールに対して有効なフィードバック関数であることを示す。
我々は、Beakが強化スケジュールの理解を深め、スケジュールの量的特徴に関する未解決の問題に対処する道を開いたと主張している。
また、理論と方法論のツールとしてスケジュールを使用する将来の実験もガイドできる。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - IncomeSCM: From tabular data set to time-series simulator and causal estimation benchmark [8.960138649105156]
本稿では,観測データを逐次構造因果モデルに変換するための戦略を提案する。
IncomeSCMシミュレータを構築するために、これらのアイデアをよく知られた成人所得データセットに適用する。
タスクは適切な課題を示し、効果の見積もりはメソッド間で大きく異なる。
論文 参考訳(メタデータ) (2024-05-25T05:40:16Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [61.64685376882383]
ランク付け学習(CLTR: Counterfactual Learning to rank)は、IRコミュニティにおいて、ログ化された大量のユーザインタラクションデータを活用してランキングモデルをトレーニングする能力において、大きな注目を集めている。
本稿では,複雑かつ多様な状況における既存のCLTRモデルのロバスト性について検討する。
その結果, DLAモデルとIPS-DCMは, PS-PBMやPSSよりも, オフラインの確率推定による堅牢性が高いことがわかった。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Gem5Pred: Predictive Approaches For Gem5 Simulation Time [0.0]
本稿では,この目的のために特別に作成されたユニークなデータセットを紹介する。
また,異なる命令型がGem5のシミュレーション時間に与える影響を解析した。
我々の優れた回帰モデルでは0.546の平均絶対誤差(MAE)が達成され、トップパフォーマンスの分類モデルは0.696の精度を記録した。
論文 参考訳(メタデータ) (2023-10-10T04:05:26Z) - Generative Modeling of Regular and Irregular Time Series Data via Koopman VAEs [50.25683648762602]
モデルの新しい設計に基づく新しい生成フレームワークであるKoopman VAEを紹介する。
クープマン理論に触発され、線形写像を用いて潜在条件事前力学を表現する。
KoVAEは、いくつかの挑戦的な合成および実世界の時系列生成ベンチマークにおいて、最先端のGANおよびVAEメソッドより優れている。
論文 参考訳(メタデータ) (2023-10-04T07:14:43Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Sequential Learning Of Neural Networks for Prequential MDL [18.475866691786695]
ニューラルネットワークを用いた画像分類データセットの事前記述長の計算手法を評価する。
計算コストを考慮すると、リハーサルによるオンライン学習は好成績であることがわかった。
本稿では,画像分類データセットの集合に対する記述長について述べる。
論文 参考訳(メタデータ) (2022-10-14T16:30:23Z) - DeepVARwT: Deep Learning for a VAR Model with Trend [1.9862987223379664]
本稿では,トレンドと依存構造を最大限に推定するために,ディープラーニング手法を用いた新しい手法を提案する。
この目的のためにLong Short-Term Memory (LSTM) ネットワークが使用される。
シミュレーション研究と実データへの適用について述べる。
論文 参考訳(メタデータ) (2022-09-21T18:23:03Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Coping With Simulators That Don't Always Return [15.980496707498535]
特定の入力に対して返却できない決定論的シミュレータにプロセスノイズを加えることで生じる非効率性について検討する。
本研究では,シミュレータが高い確率で成功するような摂動を提案するために,条件付き正規化フローのトレーニング方法を示す。
論文 参考訳(メタデータ) (2020-03-28T23:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。