論文の概要: Towards Futuristic Autonomous Experimentation--A Surprise-Reacting
Sequential Experiment Policy
- arxiv url: http://arxiv.org/abs/2112.00600v1
- Date: Wed, 1 Dec 2021 16:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 15:30:36.741274
- Title: Towards Futuristic Autonomous Experimentation--A Surprise-Reacting
Sequential Experiment Policy
- Title(参考訳): 未来的自律実験に向けて-サプライズ・シークエンシャル実験政策
- Authors: Imtiaz Ahmed and Satish Bukkapatnam and Bhaskar Botcha and Yu Ding
- Abstract要約: 製造における自律的な実験プラットフォームは、先進材料に適した製造条件のシーケンシャルな探索を行うことができると考えられている。
このような能力は、未来的な自律的な実験プラットフォームに必要不可欠である、と我々は主張する。
- 参考スコア(独自算出の注目度): 3.326548149772318
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An autonomous experimentation platform in manufacturing is supposedly capable
of conducting a sequential search for finding suitable manufacturing conditions
for advanced materials by itself or even for discovering new materials with
minimal human intervention. The core of the intelligent control of such
platforms is the policy directing sequential experiments, namely, to decide
where to conduct the next experiment based on what has been done thus far. Such
policy inevitably trades off exploitation versus exploration and the current
practice is under the Bayesian optimization framework using the expected
improvement criterion or its variants. We discuss whether it is beneficial to
trade off exploitation versus exploration by measuring the element and degree
of surprise associated with the immediate past observation. We devise a
surprise-reacting policy using two existing surprise metrics, known as the
Shannon surprise and Bayesian surprise. Our analysis shows that the
surprise-reacting policy appears to be better suited for quickly characterizing
the overall landscape of a response surface or a design place under resource
constraints. We argue that such capability is much needed for futuristic
autonomous experimentation platforms. We do not claim that we have a fully
autonomous experimentation platform, but believe that our current effort sheds
new lights or provides a different view angle as researchers are racing to
elevate the autonomy of various primitive autonomous experimentation systems.
- Abstract(参考訳): 製造における自律的な実験プラットフォームは、先進材料の適切な製造条件を自身で見つけることや、最小限の人間の介入で新しい材料を発見することの連続的な探索を行うことができると考えられている。
このようなプラットフォームのインテリジェントな制御の核心は、シーケンシャルな実験を指示する政策、すなわち、これまで何をしてきたかに基づいて次の実験の実施場所を決定する政策である。
このような政策は必然的に搾取と探索をトレードオフし、現在の慣行は期待された改善基準またはその変種を用いたベイズ最適化の枠組みの下に置かれている。
我々は,過去の観測と関連する要素と驚きの程度を測定することで,搾取と探査のトレードオフが有用かどうかを議論する。
シャノン・サプライズ(shannon surprise)とベイズ・サプライズ(baiesian surprise)という2つの既存のサプライズ指標を使用してサプライズ・リアクション・ポリシーを考案する。
我々の分析によると、サプライズ反応ポリシーは、応答面やリソース制約下での設計箇所の全体像を素早く特徴づけるのに適しているようだ。
未来的な自律的な実験プラットフォームには、このような能力が大いに必要だと主張する。
私たちは完全に自律的な実験プラットフォームを持っているとは主張していませんが、現在の取り組みが新たな光を放ち、研究者が様々な原始的な自律的な実験システムの自律性を高めるために競っているため、異なる視点を提供すると信じています。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions [80.34972679938483]
不完全な機械学習予測にも拘わらず、安全な自律的意思決定を実現するためのフレームワークであるコンフォーマル決定理論を導入する。
私たちのアルゴリズムが生み出す決定は、リスクが低いという証明可能な統計的保証があるという意味では安全です。
実験は、人間のまわりのロボットの動き計画、自動株式取引、ロボット製造において、我々のアプローチの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-09T17:59:30Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Rethinking Exploration for Sample-Efficient Policy Learning [20.573107021603356]
有向探索法がサンプル効率的な制御問題にはあまり影響を与えていないことを示す。
3つの問題は、BBEの適用性を制限している: 有限サンプルのバイアス、崩壊するボーナスへの緩やかな適応、そして目に見えない遷移に対する楽観性の欠如である。
本稿では,これらの制限に対処するため,ボーナスベースの探索レシピの変更を提案する。
UFOと呼ばれる結果のアルゴリズムは、有限サンプルに偏りのないポリシーを生成し、探索ボーナスの変化として高速適応し、新しい遷移に関して最適化する。
論文 参考訳(メタデータ) (2021-01-23T08:51:04Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。