論文の概要: Sequential Bayesian experimental designs via reinforcement learning
- arxiv url: http://arxiv.org/abs/2202.07472v1
- Date: Mon, 14 Feb 2022 04:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 10:30:14.781164
- Title: Sequential Bayesian experimental designs via reinforcement learning
- Title(参考訳): 強化学習による逐次ベイズ実験設計
- Authors: Hikaru Asano
- Abstract要約: 我々は,BEDを逐次的に構築するために,強化学習による逐次実験設計を提案する。
提案手法は,新たな実世界指向実験環境を提案することで,期待される情報獲得を最大化することを目的としている。
提案手法は,EIGやサンプリング効率などの指標において,既存の手法よりも優れていることを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian experimental design (BED) has been used as a method for conducting
efficient experiments based on Bayesian inference. The existing methods,
however, mostly focus on maximizing the expected information gain (EIG); the
cost of experiments and sample efficiency are often not taken into account. In
order to address this issue and enhance practical applicability of BED, we
provide a new approach Sequential Experimental Design via Reinforcement
Learning to construct BED in a sequential manner by applying reinforcement
learning in this paper. Here, reinforcement learning is a branch of machine
learning in which an agent learns a policy to maximize its reward by
interacting with the environment. The characteristics of interacting with the
environment are similar to the sequential experiment, and reinforcement
learning is indeed a method that excels at sequential decision making.
By proposing a new real-world-oriented experimental environment, our approach
aims to maximize the EIG while keeping the cost of experiments and sample
efficiency in mind simultaneously. We conduct numerical experiments for three
different examples. It is confirmed that our method outperforms the existing
methods in various indices such as the EIG and sampling efficiency, indicating
that our proposed method and experimental environment can make a significant
contribution to application of BED to the real world.
- Abstract(参考訳): ベイジアン実験設計(BED)はベイジアン推論に基づく効率的な実験を行う方法として用いられている。
しかし、既存の手法は主に期待情報ゲイン(EIG)の最大化に重点を置いており、実験のコストとサンプル効率は考慮されないことが多い。
本論文では,本課題に対処し,ベッドの実用的適用性を高めるために,強化学習による逐次的な実験設計を行い,強化学習を応用してベッドを逐次的に構築する手法を提案する。
ここでは、強化学習は、エージェントが環境と対話することで報酬を最大化するポリシーを学習する機械学習の分野である。
環境と相互作用する特性は逐次実験と類似しており,強化学習は逐次的意思決定に優れた手法である。
実世界指向の新たな実験環境を提案することで,実験コストとサンプル効率を同時に念頭に置いて,eigを最大化することを目指す。
3つの異なる例に対して数値実験を行う。
本手法は,eigやサンプリング効率などの指標において既存の手法よりも優れており,提案手法や実験環境が実世界へのベッドの適用に有意な貢献をすることができることを示す。
関連論文リスト
- Efficient Diversity-based Experience Replay for Deep Reinforcement Learning [14.96744975805832]
本稿では, 状態実現における多種多様なサンプルの優先順位付けに決定論的点プロセスを活用する, 多様性に基づく経験リプレイ(DBER)を提案する。
我々は,MuJoCo,Atariゲーム,ハビタットのリアルな室内環境におけるロボットマニピュレーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:51:27Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Effect Size Estimation for Duration Recommendation in Online Experiments: Leveraging Hierarchical Models and Objective Utility Approaches [13.504353263032359]
仮定効果サイズ(AES)の選択は、実験の期間を決定的に決定し、その結果、その精度と効率が決定される。
伝統的に、実験者はドメイン知識に基づいてAESを決定するが、この方法は多数の実験を管理するオンライン実験サービスにとって実用的ではない。
オンライン実験サービスにおけるデータ駆動型AES選択のための2つのソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-20T09:34:28Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Opportunities for Adaptive Experiments to Enable Continuous Improvement in Computer Science Education [7.50867730317249]
適応実験では、異なる条件が学生に展開されるにつれて、データを分析・活用する。
これらのアルゴリズムは、その後の学生との相互作用において最も効果的な条件を動的に展開することができる。
本研究は, ブリッジング研究における適応実験の重要性を探求し, 継続的な改善を実現するための方法である。
論文 参考訳(メタデータ) (2023-10-18T20:54:59Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - Environment Design for Inverse Reinforcement Learning [3.085995273374333]
一つの環境から学ぶことに集中する現在の逆強化学習法は、環境力学のわずかな変化に対処できない可能性がある。
本フレームワークでは,学習者がエキスパートと繰り返し対話し,前者の選択環境を使って報酬関数を識別する。
その結果,サンプル効率とロバスト性の両方の改善が得られた。
論文 参考訳(メタデータ) (2022-10-26T18:31:17Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Incorporating Expert Prior Knowledge into Experimental Design via
Posterior Sampling [58.56638141701966]
実験者は、グローバルな最適な場所に関する知識を得ることができる。
グローバル最適化に関する専門家の事前知識をベイズ最適化に組み込む方法は不明である。
効率の良いベイズ最適化手法は、大域的最適の後方分布の後方サンプリングによって提案されている。
論文 参考訳(メタデータ) (2020-02-26T01:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。