論文の概要: How Useful is Intermittent, Asynchronous Expert Feedback for Bayesian Optimization?
- arxiv url: http://arxiv.org/abs/2406.06459v1
- Date: Mon, 10 Jun 2024 16:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 12:29:56.407048
- Title: How Useful is Intermittent, Asynchronous Expert Feedback for Bayesian Optimization?
- Title(参考訳): ベイズ最適化のための非同期エキスパートフィードバックであるIntermittentはどの程度有用か?
- Authors: Agustinus Kristiadi, Felix Strieth-Kalthoff, Sriram Ganapathi Subramanian, Vincent Fortuin, Pascal Poupart, Geoff Pleiss,
- Abstract要約: 非ブロック方式で組み込まれている少数の専門家のフィードバックがBOキャンペーンを改善できるかを検討する。
おもちゃと化学データセットの実験は、少数の間欠的な非同期専門家のフィードバックでさえ、BOを改善したり制約したりするのに役立つことを示唆している。
- 参考スコア(独自算出の注目度): 32.27392014989582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian optimization (BO) is an integral part of automated scientific discovery -- the so-called self-driving lab -- where human inputs are ideally minimal or at least non-blocking. However, scientists often have strong intuition, and thus human feedback is still useful. Nevertheless, prior works in enhancing BO with expert feedback, such as by incorporating it in an offline or online but blocking (arrives at each BO iteration) manner, are incompatible with the spirit of self-driving labs. In this work, we study whether a small amount of randomly arriving expert feedback that is being incorporated in a non-blocking manner can improve a BO campaign. To this end, we run an additional, independent computing thread on top of the BO loop to handle the feedback-gathering process. The gathered feedback is used to learn a Bayesian preference model that can readily be incorporated into the BO thread, to steer its exploration-exploitation process. Experiments on toy and chemistry datasets suggest that even just a few intermittent, asynchronous expert feedback can be useful for improving or constraining BO. This can especially be useful for its implication in improving self-driving labs, e.g. making them more data-efficient and less costly.
- Abstract(参考訳): ベイズ最適化(BO)は、人間の入力が理想的には最小か少なくともノンブロッキングである自動科学的発見(いわゆる自動運転ラボ)の不可欠な部分である。
しかし、科学者はしばしば強い直感を持っているため、人間のフィードバックは依然として有用である。
それでも、BOをオフラインまたはオンラインに組み込むなど、専門家のフィードバックで強化する以前の作業は、各BOイテレーションで実施される)方法によって、自動運転ラボの精神とは相容れない。
本研究では,非ブロック方式で組み込まれている少数の専門家のフィードバックがBOキャンペーンを改善できるかどうかを検討する。
この目的のために,BOループ上に独立した計算スレッドを新たに実行し,フィードバック収集プロセスを処理する。
収集されたフィードバックは、BOスレッドに容易に組み込むことができるベイズ選好モデルを学ぶために使用され、探索-探索プロセスの制御に使用される。
おもちゃと化学データセットの実験は、少数の間欠的な非同期専門家のフィードバックでさえ、BOを改善したり制約したりするのに役立つことを示唆している。
これは、例えば、データ効率を向上し、コストを下げるなど、自動運転ラボを改善する上で、特に有用だ。
関連論文リスト
- Explaining Bayesian Optimization by Shapley Values Facilitates Human-AI
Collaboration [12.634328767713946]
ShapleyBOは、ゲーム理論のShapley値によってBOの提案を解釈するためのフレームワークである。
以上の結果から,ShapleyBOはアレタリックおよびてんかん不確実性を探究する人々への探索への貢献を解消できることが示唆された。
我々は、このHMIのメリットを、人間のループBOによってウェアラブルロボットデバイス(補助バックエクソスーツ)をパーソナライズするユースケースとして示す。
論文 参考訳(メタデータ) (2024-03-07T16:13:32Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - BO-Muse: A human expert and AI teaming framework for accelerated
experimental design [58.61002520273518]
我々のアルゴリズムは、人間の専門家が実験プロセスでリードすることを可能にする。
我々のアルゴリズムは、AIや人間よりも高速に、サブ線形に収束することを示す。
論文 参考訳(メタデータ) (2023-03-03T02:56:05Z) - When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad
Responses into Good Labels [34.6235464256814]
Juicerは、バイナリとフリーフォームの両方の人間のフィードバックを利用するためのフレームワークである。
モデル修正応答による強化訓練が最終対話モデルを改善することが判明した。
論文 参考訳(メタデータ) (2022-10-28T04:57:21Z) - Bayesian Optimization under Stochastic Delayed Feedback [36.16843889404038]
既存のBOメソッドは、関数評価(フィードバック)が学習者の即時または固定遅延後に利用可能であると仮定する。
本稿では,遅延フィードバックを待ちながら新しい関数クエリを選択するジレンマに効率よく対処する,線形後悔保証付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-19T07:34:08Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - A Broad-persistent Advising Approach for Deep Interactive Reinforcement
Learning in Robotic Environments [0.3683202928838613]
Deep Interactive Reinforcement Learning (DeepIRL)には、外部トレーナーやエキスパートからのインタラクティブなフィードバックが含まれており、学習プロセスのスピードアップのために、学習者がアクションを選択するのを支援する。
本稿では,BPA(Broad-peristent Advising)を提案する。
トレーナーは、現在の状態だけでなく、同様の状態に関するより一般的なアドバイスを与えるだけでなく、エージェントが学習プロセスのスピードアップを可能にする。
論文 参考訳(メタデータ) (2021-10-15T10:56:00Z) - Bayesian Optimisation for Sequential Experimental Design with
Applications in Additive Manufacturing [2.7910505923792646]
BO技術について概説し、加法製造におけるBOのすべての応用を概観し、異なるオープンBOライブラリの特徴を比較して実演する。
本稿はベイズ的手法をある程度理解した読者を対象としているが、必ずしも添加物製造の知識を持つとは限らない。
論文 参考訳(メタデータ) (2021-07-27T13:30:56Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。