論文の概要: Towards Futuristic Autonomous Experimentation--A Surprise-Reacting Sequential Experiment Policy
- arxiv url: http://arxiv.org/abs/2112.00600v3
- Date: Wed, 02 Oct 2024 15:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:16:56.625947
- Title: Towards Futuristic Autonomous Experimentation--A Surprise-Reacting Sequential Experiment Policy
- Title(参考訳): 未来的自律実験に向けて-サプライズ・サプライズ・シークエンシャル・エクスペリメント・ポリシー
- Authors: Imtiaz Ahmed, Satish Bukkapatnam, Bhaskar Botcha, Yu Ding,
- Abstract要約: 製造における自律的な実験プラットフォームは、それ自体で適切な製造条件のシーケンシャルな探索や、人間の介入を最小限に抑えた新しい材料発見を行うことができると考えられている。
このようなプラットフォームのインテリジェントな制御の中核は、これまで何をしてきたかに基づいて、次の実験の実施場所を決定する政策である。
我々は、過去の観測と関連する驚きの要素と度合いを計測することで、搾取と探検のトレードオフが有益かどうかを論じる。
- 参考スコア(独自算出の注目度): 7.485913259227432
- License:
- Abstract: An autonomous experimentation platform in manufacturing is supposedly capable of conducting a sequential search for finding suitable manufacturing conditions by itself or even for discovering new materials with minimal human intervention. The core of the intelligent control of such platforms is a policy to decide where to conduct the next experiment based on what has been done thus far. Such policy inevitably trades off between exploitation and exploration. Currently, the prevailing approach is to use various acquisition functions in the Bayesian optimization framework. We discuss whether it is beneficial to trade off exploitation versus exploration by measuring the element and degree of surprise associated with the immediate past observation. We devise a surprise-reacting policy using two existing surprise metrics, known as the Shannon surprise and Bayesian surprise. Our analysis shows that the surprise-reacting policy appears to be better suited for quickly characterizing the overall landscape of a response surface under resource constraints. We do not claim that we have a fully autonomous experimentation system but believe that the surprise-reacting capability benefits the automation of sequential decisions in autonomous experimentation.
- Abstract(参考訳): 製造における自律的な実験プラットフォームは、それ自体で適切な製造条件を見つけるためのシーケンシャルな探索や、人間の介入を最小限に抑えた新素材の発見を行うことができると考えられている。
このようなプラットフォームのインテリジェントな制御の中核は、これまで何をしてきたかに基づいて、次の実験の実施場所を決定する政策である。
このような政策は必然的に搾取と探検の間を行き来する。
現在、一般的なアプローチはベイズ最適化フレームワークで様々な取得関数を使用することである。
我々は、過去の観測と関連する驚きの要素と度合いを計測することで、搾取と探検のトレードオフが有益かどうかを論じる。
シャノン・サプライズ(Shannon surprise)とベイズ・サプライズ(Bayesian surprise)と呼ばれる2つの既存のサプライズ・メトリクスを使って、サプライズ・リアクション・ポリシーを考案した。
資源制約下での応答面の全体像を素早く特徴づけるには,サプライズ・リアクション・ポリシーの方が適していると考えられる。
我々は、完全に自律的な実験システムを持っていると主張するわけではないが、このサプライズ反応能力は、自律的な実験におけるシーケンシャルな決定の自動化に有効だと信じている。
関連論文リスト
- Deterministic Exploration via Stationary Bellman Error Maximization [6.474106100512158]
探索は強化学習(RL)の重要かつ特異な側面である
本稿では,後者を安定させ,決定論的探索政策に到達するための3つの修正点を紹介する。
実験結果から,本手法は高密度かつスパースな報酬設定において,$varepsilon$-greedyよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-31T11:46:48Z) - Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - Dealing with uncertainty: balancing exploration and exploitation in deep
recurrent reinforcement learning [0.0]
環境に関する不完全な知識は、不確実性の下で意思決定を行うエージェントを導く。
強化学習(Reinforcement Learning, RL)では、自律的なエージェントが2つの対照的なニーズのバランスを取る必要がある。
適応的手法は、探索と搾取の間のトレードオフを近似した方がよいことを示す。
論文 参考訳(メタデータ) (2023-10-12T13:45:33Z) - Conformal Decision Theory: Safe Autonomous Decisions from Imperfect Predictions [80.34972679938483]
不完全な機械学習予測にも拘わらず、安全な自律的意思決定を実現するためのフレームワークであるコンフォーマル決定理論を導入する。
私たちのアルゴリズムが生み出す決定は、リスクが低いという証明可能な統計的保証があるという意味では安全です。
実験は、人間のまわりのロボットの動き計画、自動株式取引、ロボット製造において、我々のアプローチの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-09T17:59:30Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - SEREN: Knowing When to Explore and When to Exploit [14.188362393915432]
本稿では,SEREN(Sive Reinforcement Exploration Network)を紹介する。
インパルス制御(英語版)として知られる政策を用いて、スイッチャーは探索政策に切り替える最良の状態のセットを決定することができる。
我々は、SERENが急速に収束し、純粋な搾取に向けた自然なスケジュールを導き出すことを証明した。
論文 参考訳(メタデータ) (2022-05-30T12:44:56Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Rethinking Exploration for Sample-Efficient Policy Learning [20.573107021603356]
有向探索法がサンプル効率的な制御問題にはあまり影響を与えていないことを示す。
3つの問題は、BBEの適用性を制限している: 有限サンプルのバイアス、崩壊するボーナスへの緩やかな適応、そして目に見えない遷移に対する楽観性の欠如である。
本稿では,これらの制限に対処するため,ボーナスベースの探索レシピの変更を提案する。
UFOと呼ばれる結果のアルゴリズムは、有限サンプルに偏りのないポリシーを生成し、探索ボーナスの変化として高速適応し、新しい遷移に関して最適化する。
論文 参考訳(メタデータ) (2021-01-23T08:51:04Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。