論文の概要: Active Exploration via Experiment Design in Markov Chains
- arxiv url: http://arxiv.org/abs/2206.14332v1
- Date: Wed, 29 Jun 2022 00:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:05:21.193537
- Title: Active Exploration via Experiment Design in Markov Chains
- Title(参考訳): マルコフ鎖の実験設計による能動的探索
- Authors: Mojm\'ir Mutn\'y and Tadeusz Janik and Andreas Krause
- Abstract要約: 科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
- 参考スコア(独自算出の注目度): 86.41407938210193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in science and engineering is to design experiments to learn
about some unknown quantity of interest. Classical experimental design
optimally allocates the experimental budget to maximize a notion of utility
(e.g., reduction in uncertainty about the unknown quantity). We consider a rich
setting, where the experiments are associated with states in a {\em Markov
chain}, and we can only choose them by selecting a {\em policy} controlling the
state transitions. This problem captures important applications, from
exploration in reinforcement learning to spatial monitoring tasks. We propose
an algorithm -- \textsc{markov-design} -- that efficiently selects policies
whose measurement allocation \emph{provably converges to the optimal one}. The
algorithm is sequential in nature, adapting its choice of policies
(experiments) informed by past measurements. In addition to our theoretical
analysis, we showcase our framework on applications in ecological surveillance
and pharmacology.
- Abstract(参考訳): 科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
古典的な実験設計は、実用性の概念を最大化するために実験予算を最適に割り当てる(例えば、未知量の不確実性の低減)。
我々は、実験が {\em Markov chain} の状態と関連付けられているリッチな設定を考え、状態遷移を制御する {\em Policy} を選択することでのみそれらを選択することができる。
この問題は、強化学習から空間モニタリングタスクまで、重要な応用を捉えている。
我々は,測定割当が最適に収束するポリシーを効率的に選択するアルゴリズム --textsc{markov-design} -- を提案する。
アルゴリズムは本質的にシーケンシャルであり、過去の測定から得られるポリシー(実験)の選択に適応する。
理論分析に加えて,環境監視と薬理学への応用に関する枠組みを提示する。
関連論文リスト
- Globally-Optimal Greedy Experiment Selection for Active Sequential
Estimation [1.1530723302736279]
逐次的に収集したデータの実験を適応的に選択するアクティブシーケンシャル推定の問題について検討する。
目標は、より正確なモデル推定のための実験選択ルールを設計することである。
そこで本稿では,グリーディ実験の選択手法のクラスを提案し,最大可能性の統計的解析を行う。
論文 参考訳(メタデータ) (2024-02-13T17:09:29Z) - Optimistic Active Exploration of Dynamical Systems [52.91573056896633]
我々はOPAXと呼ばれる活発な探索のためのアルゴリズムを開発した。
我々は,OPAXを各エピソードで解決可能な最適制御問題に還元する方法を示す。
実験の結果,OPAXは理論的に健全であるだけでなく,新規な下流タスクのゼロショット計画にも有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:26:59Z) - Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。
近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。
実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文 参考訳(メタデータ) (2023-06-08T18:10:37Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z) - Evaluating Guiding Spaces for Motion Planning [2.384084215091134]
我々は、同じ枠組みの下で、見かけ上の異なる多くの先行研究をカプセル化するエンフモーション計画誘導空間を定義する。
また,得られたバイアスサンプリングの品質に焦点をあてた案内計画を評価するための情報理論手法を提案する。
論文 参考訳(メタデータ) (2022-10-16T21:17:51Z) - Biological Sequence Design with GFlowNets [75.1642973538266]
望ましい性質を持つデノボ生物配列の設計には、数ラウンドの分子のアイデアと高価なウェットラブ評価を伴う活性ループが伴うことが多い。
これにより、提案された候補の多様性は、構想段階において重要な考慮事項となる。
本稿では,不確実性推定と近年提案されているGFlowNetを多種多様な候補解の生成元として活用した能動的学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-02T15:53:38Z) - Reinforcement Learning based Sequential Batch-sampling for Bayesian
Optimal Experimental Design [1.6249267147413522]
実験の逐次設計(SDOE)は,近年,有望な結果をもたらす手法として人気がある。
本研究では、SDOE戦略を拡張し、実験やコンピュータコードに一連の入力で問い合わせる。
提案手法のユニークな機能は、複数のタスクに適用できる能力である。
論文 参考訳(メタデータ) (2021-12-21T02:25:23Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Task-Optimal Exploration in Linear Dynamical Systems [29.552894877883883]
タスクガイドによる探索を行い、タスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。
我々は、関心のあるタスクを完了させることの難しさを明示的に定量化する、インスタンス依存およびタスク依存の下位境界を提供する。
本研究では,タスク完了に必要な情報を正確に収集し,インスタンスとタスクの最適サンプルの複雑さを達成するための有限時間境界を提供することにより,環境を最適に探索することを示す。
論文 参考訳(メタデータ) (2021-02-10T01:42:22Z) - Olympus: a benchmarking framework for noisy optimization and experiment
planning [0.0]
オフザシェルフ最適化アルゴリズムに基づく実験計画戦略は、完全に自律的な研究プラットフォームに採用することができる。
それらの性能が、ノイズの多い高次元の実験タスクにどのように変換されるかは、不明である。
我々は,最適化アルゴリズムをベンチマークするための一貫した,使いやすいフレームワークを提供するソフトウェアパッケージであるOlympusを紹介した。
論文 参考訳(メタデータ) (2020-10-08T17:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。