論文の概要: Towards Futuristic Autonomous Experimentation--A Surprise-Reacting Sequential Experiment Policy
- arxiv url: http://arxiv.org/abs/2112.00600v3
- Date: Wed, 02 Oct 2024 15:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:16:56.625947
- Title: Towards Futuristic Autonomous Experimentation--A Surprise-Reacting Sequential Experiment Policy
- Title(参考訳): 未来的自律実験に向けて-サプライズ・サプライズ・シークエンシャル・エクスペリメント・ポリシー
- Authors: Imtiaz Ahmed, Satish Bukkapatnam, Bhaskar Botcha, Yu Ding,
- Abstract要約: 製造における自律的な実験プラットフォームは、それ自体で適切な製造条件のシーケンシャルな探索や、人間の介入を最小限に抑えた新しい材料発見を行うことができると考えられている。
このようなプラットフォームのインテリジェントな制御の中核は、これまで何をしてきたかに基づいて、次の実験の実施場所を決定する政策である。
我々は、過去の観測と関連する驚きの要素と度合いを計測することで、搾取と探検のトレードオフが有益かどうかを論じる。
- 参考スコア(独自算出の注目度): 7.485913259227432
- License:
- Abstract: An autonomous experimentation platform in manufacturing is supposedly capable of conducting a sequential search for finding suitable manufacturing conditions by itself or even for discovering new materials with minimal human intervention. The core of the intelligent control of such platforms is a policy to decide where to conduct the next experiment based on what has been done thus far. Such policy inevitably trades off between exploitation and exploration. Currently, the prevailing approach is to use various acquisition functions in the Bayesian optimization framework. We discuss whether it is beneficial to trade off exploitation versus exploration by measuring the element and degree of surprise associated with the immediate past observation. We devise a surprise-reacting policy using two existing surprise metrics, known as the Shannon surprise and Bayesian surprise. Our analysis shows that the surprise-reacting policy appears to be better suited for quickly characterizing the overall landscape of a response surface under resource constraints. We do not claim that we have a fully autonomous experimentation system but believe that the surprise-reacting capability benefits the automation of sequential decisions in autonomous experimentation.
- Abstract(参考訳): 製造における自律的な実験プラットフォームは、それ自体で適切な製造条件を見つけるためのシーケンシャルな探索や、人間の介入を最小限に抑えた新素材の発見を行うことができると考えられている。
このようなプラットフォームのインテリジェントな制御の中核は、これまで何をしてきたかに基づいて、次の実験の実施場所を決定する政策である。
このような政策は必然的に搾取と探検の間を行き来する。
現在、一般的なアプローチはベイズ最適化フレームワークで様々な取得関数を使用することである。
我々は、過去の観測と関連する驚きの要素と度合いを計測することで、搾取と探検のトレードオフが有益かどうかを論じる。
シャノン・サプライズ(Shannon surprise)とベイズ・サプライズ(Bayesian surprise)と呼ばれる2つの既存のサプライズ・メトリクスを使って、サプライズ・リアクション・ポリシーを考案した。
資源制約下での応答面の全体像を素早く特徴づけるには,サプライズ・リアクション・ポリシーの方が適していると考えられる。
我々は、完全に自律的な実験システムを持っていると主張するわけではないが、このサプライズ反応能力は、自律的な実験におけるシーケンシャルな決定の自動化に有効だと信じている。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Counterfactual Prediction Under Selective Confounding [3.6860485638625673]
この研究は、全ての共同創設者が知られていない場合、バイナリ処理とその結果の間の因果推論を行うという課題に対処する。
我々は、希望する処置の下ですべての共同創設者を知るという要求を緩和し、選択的共起(Selective Confounding)と呼ぶ。
提案手法の有効性に関する理論的誤差境界と実証的証拠の両方を,実世界と実世界の子配置データを用いて提示する。
論文 参考訳(メタデータ) (2023-10-21T16:54:59Z) - Maximum State Entropy Exploration using Predecessor and Successor
Representations [17.732962106114478]
動物は、食物の配置などの重要なタスクにおいて、動物を探索する能力が発達している。
本稿では,過去の叙述的経験を条件に,効率的な探索政策を学習する手法である$etapsi$-Learningを提案する。
論文 参考訳(メタデータ) (2023-06-26T16:08:26Z) - Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring [13.62951379287041]
本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。
この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
論文 参考訳(メタデータ) (2023-04-02T00:59:10Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Crowd Sensing and Living Lab Outdoor Experimentation Made Easy [2.5234156040689237]
この記事では、厳格な屋外実験のためのオープンソースのソフトウェアプラットフォームであるSmart Agoraを紹介します。
1行のコードを書くことなく、非常に複雑な実験シナリオが視覚的に設計され、スマートフォンに自動的にデプロイされます。
論文 参考訳(メタデータ) (2021-07-08T21:49:32Z) - Rethinking Exploration for Sample-Efficient Policy Learning [20.573107021603356]
有向探索法がサンプル効率的な制御問題にはあまり影響を与えていないことを示す。
3つの問題は、BBEの適用性を制限している: 有限サンプルのバイアス、崩壊するボーナスへの緩やかな適応、そして目に見えない遷移に対する楽観性の欠如である。
本稿では,これらの制限に対処するため,ボーナスベースの探索レシピの変更を提案する。
UFOと呼ばれる結果のアルゴリズムは、有限サンプルに偏りのないポリシーを生成し、探索ボーナスの変化として高速適応し、新しい遷移に関して最適化する。
論文 参考訳(メタデータ) (2021-01-23T08:51:04Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。