論文の概要: Towards Futuristic Autonomous Experimentation--A Surprise-Reacting
Sequential Experiment Policy
- arxiv url: http://arxiv.org/abs/2112.00600v1
- Date: Wed, 1 Dec 2021 16:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 15:30:36.741274
- Title: Towards Futuristic Autonomous Experimentation--A Surprise-Reacting
Sequential Experiment Policy
- Title(参考訳): 未来的自律実験に向けて-サプライズ・シークエンシャル実験政策
- Authors: Imtiaz Ahmed and Satish Bukkapatnam and Bhaskar Botcha and Yu Ding
- Abstract要約: 製造における自律的な実験プラットフォームは、先進材料に適した製造条件のシーケンシャルな探索を行うことができると考えられている。
このような能力は、未来的な自律的な実験プラットフォームに必要不可欠である、と我々は主張する。
- 参考スコア(独自算出の注目度): 3.326548149772318
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An autonomous experimentation platform in manufacturing is supposedly capable
of conducting a sequential search for finding suitable manufacturing conditions
for advanced materials by itself or even for discovering new materials with
minimal human intervention. The core of the intelligent control of such
platforms is the policy directing sequential experiments, namely, to decide
where to conduct the next experiment based on what has been done thus far. Such
policy inevitably trades off exploitation versus exploration and the current
practice is under the Bayesian optimization framework using the expected
improvement criterion or its variants. We discuss whether it is beneficial to
trade off exploitation versus exploration by measuring the element and degree
of surprise associated with the immediate past observation. We devise a
surprise-reacting policy using two existing surprise metrics, known as the
Shannon surprise and Bayesian surprise. Our analysis shows that the
surprise-reacting policy appears to be better suited for quickly characterizing
the overall landscape of a response surface or a design place under resource
constraints. We argue that such capability is much needed for futuristic
autonomous experimentation platforms. We do not claim that we have a fully
autonomous experimentation platform, but believe that our current effort sheds
new lights or provides a different view angle as researchers are racing to
elevate the autonomy of various primitive autonomous experimentation systems.
- Abstract(参考訳): 製造における自律的な実験プラットフォームは、先進材料の適切な製造条件を自身で見つけることや、最小限の人間の介入で新しい材料を発見することの連続的な探索を行うことができると考えられている。
このようなプラットフォームのインテリジェントな制御の核心は、シーケンシャルな実験を指示する政策、すなわち、これまで何をしてきたかに基づいて次の実験の実施場所を決定する政策である。
このような政策は必然的に搾取と探索をトレードオフし、現在の慣行は期待された改善基準またはその変種を用いたベイズ最適化の枠組みの下に置かれている。
我々は,過去の観測と関連する要素と驚きの程度を測定することで,搾取と探査のトレードオフが有用かどうかを議論する。
シャノン・サプライズ(shannon surprise)とベイズ・サプライズ(baiesian surprise)という2つの既存のサプライズ指標を使用してサプライズ・リアクション・ポリシーを考案する。
我々の分析によると、サプライズ反応ポリシーは、応答面やリソース制約下での設計箇所の全体像を素早く特徴づけるのに適しているようだ。
未来的な自律的な実験プラットフォームには、このような能力が大いに必要だと主張する。
私たちは完全に自律的な実験プラットフォームを持っているとは主張していませんが、現在の取り組みが新たな光を放ち、研究者が様々な原始的な自律的な実験システムの自律性を高めるために競っているため、異なる視点を提供すると信じています。
関連論文リスト
- Counterfactual Prediction Under Selective Confounding [3.6860485638625673]
この研究は、全ての共同創設者が知られていない場合、バイナリ処理とその結果の間の因果推論を行うという課題に対処する。
我々は、希望する処置の下ですべての共同創設者を知るという要求を緩和し、選択的共起(Selective Confounding)と呼ぶ。
提案手法の有効性に関する理論的誤差境界と実証的証拠の両方を,実世界と実世界の子配置データを用いて提示する。
論文 参考訳(メタデータ) (2023-10-21T16:54:59Z) - Maximum State Entropy Exploration using Predecessor and Successor
Representations [17.732962106114478]
動物は、食物の配置などの重要なタスクにおいて、動物を探索する能力が発達している。
本稿では,過去の叙述的経験を条件に,効率的な探索政策を学習する手法である$etapsi$-Learningを提案する。
論文 参考訳(メタデータ) (2023-06-26T16:08:26Z) - Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring [13.62951379287041]
本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。
この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
論文 参考訳(メタデータ) (2023-04-02T00:59:10Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Crowd Sensing and Living Lab Outdoor Experimentation Made Easy [2.5234156040689237]
この記事では、厳格な屋外実験のためのオープンソースのソフトウェアプラットフォームであるSmart Agoraを紹介します。
1行のコードを書くことなく、非常に複雑な実験シナリオが視覚的に設計され、スマートフォンに自動的にデプロイされます。
論文 参考訳(メタデータ) (2021-07-08T21:49:32Z) - Rethinking Exploration for Sample-Efficient Policy Learning [20.573107021603356]
有向探索法がサンプル効率的な制御問題にはあまり影響を与えていないことを示す。
3つの問題は、BBEの適用性を制限している: 有限サンプルのバイアス、崩壊するボーナスへの緩やかな適応、そして目に見えない遷移に対する楽観性の欠如である。
本稿では,これらの制限に対処するため,ボーナスベースの探索レシピの変更を提案する。
UFOと呼ばれる結果のアルゴリズムは、有限サンプルに偏りのないポリシーを生成し、探索ボーナスの変化として高速適応し、新しい遷移に関して最適化する。
論文 参考訳(メタデータ) (2021-01-23T08:51:04Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。