論文の概要: Sequential Bayesian experimental designs via reinforcement learning
- arxiv url: http://arxiv.org/abs/2202.07472v1
- Date: Mon, 14 Feb 2022 04:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 10:30:14.781164
- Title: Sequential Bayesian experimental designs via reinforcement learning
- Title(参考訳): 強化学習による逐次ベイズ実験設計
- Authors: Hikaru Asano
- Abstract要約: 我々は,BEDを逐次的に構築するために,強化学習による逐次実験設計を提案する。
提案手法は,新たな実世界指向実験環境を提案することで,期待される情報獲得を最大化することを目的としている。
提案手法は,EIGやサンプリング効率などの指標において,既存の手法よりも優れていることを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bayesian experimental design (BED) has been used as a method for conducting
efficient experiments based on Bayesian inference. The existing methods,
however, mostly focus on maximizing the expected information gain (EIG); the
cost of experiments and sample efficiency are often not taken into account. In
order to address this issue and enhance practical applicability of BED, we
provide a new approach Sequential Experimental Design via Reinforcement
Learning to construct BED in a sequential manner by applying reinforcement
learning in this paper. Here, reinforcement learning is a branch of machine
learning in which an agent learns a policy to maximize its reward by
interacting with the environment. The characteristics of interacting with the
environment are similar to the sequential experiment, and reinforcement
learning is indeed a method that excels at sequential decision making.
By proposing a new real-world-oriented experimental environment, our approach
aims to maximize the EIG while keeping the cost of experiments and sample
efficiency in mind simultaneously. We conduct numerical experiments for three
different examples. It is confirmed that our method outperforms the existing
methods in various indices such as the EIG and sampling efficiency, indicating
that our proposed method and experimental environment can make a significant
contribution to application of BED to the real world.
- Abstract(参考訳): ベイジアン実験設計(BED)はベイジアン推論に基づく効率的な実験を行う方法として用いられている。
しかし、既存の手法は主に期待情報ゲイン(EIG)の最大化に重点を置いており、実験のコストとサンプル効率は考慮されないことが多い。
本論文では,本課題に対処し,ベッドの実用的適用性を高めるために,強化学習による逐次的な実験設計を行い,強化学習を応用してベッドを逐次的に構築する手法を提案する。
ここでは、強化学習は、エージェントが環境と対話することで報酬を最大化するポリシーを学習する機械学習の分野である。
環境と相互作用する特性は逐次実験と類似しており,強化学習は逐次的意思決定に優れた手法である。
実世界指向の新たな実験環境を提案することで,実験コストとサンプル効率を同時に念頭に置いて,eigを最大化することを目指す。
3つの異なる例に対して数値実験を行う。
本手法は,eigやサンプリング効率などの指標において既存の手法よりも優れており,提案手法や実験環境が実世界へのベッドの適用に有意な貢献をすることができることを示す。
関連論文リスト
- Enhanced Bayesian Optimization via Preferential Modeling of Abstract
Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。
優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文 参考訳(メタデータ) (2024-02-27T09:23:13Z) - Effect Size Estimation for Duration Recommendation in Online
Experiments: Leveraging Hierarchical Models and Objective Utility Approaches [14.309426374206021]
仮定効果サイズ(AES)の選択は、実験の期間を決定的に決定し、その結果、その精度と効率が決定される。
伝統的に、実験者はドメイン知識に基づいてAESを決定するが、この方法は多数の実験を管理するオンライン実験サービスにとって実用的ではない。
オンライン実験サービスにおけるデータ駆動型AES選択のための2つのソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-20T09:34:28Z) - Adaptive Instrument Design for Indirect Experiments [48.815194906471405]
RCTとは異なり、間接的な実験は条件付き機器変数を利用して治療効果を推定する。
本稿では,データ収集ポリシーを適応的に設計することで,間接実験におけるサンプル効率の向上に向けた最初のステップについて述べる。
我々の主な貢献は、影響関数を利用して最適なデータ収集ポリシーを探索する実用的な計算手順である。
論文 参考訳(メタデータ) (2023-12-05T02:38:04Z) - Opportunities for Adaptive Experiments to Enable Continuous Improvement
that Trades-off Instructor and Researcher Incentives [8.055654065452584]
適応的な実験が継続的なコース改善にどのように役立つかを検討する。
適応的な実験では、異なる武器や条件が学生に展開されるにつれて、データは分析され、将来の学生の体験を変えるために使用される。
これは、機械学習アルゴリズムを使用して、学生の経験や成果を改善するために、どのアクションがより有望であるかを特定することができる。
論文 参考訳(メタデータ) (2023-10-18T20:54:59Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - Design Amortization for Bayesian Optimal Experimental Design [70.13948372218849]
予測情報ゲイン(EIG)のバウンダリに関してパラメータ化された変分モデルを最適化する。
実験者が1つの変分モデルを最適化し、潜在的に無限に多くの設計に対してEIGを推定できる新しいニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-07T02:12:34Z) - Sample Efficient Imitation Learning via Reward Function Trained in
Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。
本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文 参考訳(メタデータ) (2021-11-23T08:06:09Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - Active Learning Approach to Optimization of Experimental Control [4.321539843681834]
実験制御を最適化する汎用機械学習方式を提案する。
このアプローチの主な課題は、実験から得られたラベル付きデータが豊富でないことである。
本手法は, 何百もの実験走行において, 最高の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2020-03-26T09:07:56Z) - Incorporating Expert Prior Knowledge into Experimental Design via
Posterior Sampling [58.56638141701966]
実験者は、グローバルな最適な場所に関する知識を得ることができる。
グローバル最適化に関する専門家の事前知識をベイズ最適化に組み込む方法は不明である。
効率の良いベイズ最適化手法は、大域的最適の後方分布の後方サンプリングによって提案されている。
論文 参考訳(メタデータ) (2020-02-26T01:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。