論文の概要: Efficient Biological Data Acquisition through Inference Set Design
- arxiv url: http://arxiv.org/abs/2410.19631v1
- Date: Fri, 25 Oct 2024 15:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:03.993321
- Title: Efficient Biological Data Acquisition through Inference Set Design
- Title(参考訳): 推論セット設計による効率的な生物学的データ取得
- Authors: Ihor Neporozhnii, Julien Roy, Emmanuel Bengio, Jason Hartford,
- Abstract要約: 本研究は,システム全体としての所望の精度を実現するため,最小の候補群を選択することを目的とする。
このメカニズムを推論セット設計と呼び,不確実性に基づくアクティブラーニングソリューションを用いて,挑戦的な事例を抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 3.9633147697178996
- License:
- Abstract: In drug discovery, highly automated high-throughput laboratories are used to screen a large number of compounds in search of effective drugs. These experiments are expensive, so we might hope to reduce their cost by experimenting on a subset of the compounds, and predicting the outcomes of the remaining experiments. In this work, we model this scenario as a sequential subset selection problem: we aim to select the smallest set of candidates in order to achieve some desired level of accuracy for the system as a whole. Our key observation is that, if there is heterogeneity in the difficulty of the prediction problem across the input space, selectively obtaining the labels for the hardest examples in the acquisition pool will leave only the relatively easy examples to remain in the inference set, leading to better overall system performance. We call this mechanism inference set design, and propose the use of an uncertainty-based active learning solution to prune out these challenging examples. Our algorithm includes an explicit stopping criterion that stops running the experiments when it is sufficiently confident that the system has reached the target performance. Our empirical studies on image and molecular datasets, as well as a real-world large-scale biological assay, show that deploying active learning for inference set design leads to significant reduction in experimental cost while obtaining high system performance.
- Abstract(参考訳): 薬物発見において、高自動化された高スループット研究所は、有効な薬物を探すために多くの化合物をスクリーニングするために使用される。
これらの実験は高価であるため、化合物のサブセットでの実験を行い、残りの実験の結果を予測することでコスト削減を期待する。
本研究は,このシナリオを逐次サブセット選択問題としてモデル化し,システム全体の所望の精度を達成するために,最小の候補群を選択することを目的とする。
我々のキーとなる観察は、入力空間全体にわたる予測問題の難しさに不均一性がある場合、取得プールにおける最も難しい例のラベルを選択的に取得すると、比較的簡単な例だけが推論セットに残され、システム全体の性能が向上するということである。
このメカニズムを推論セット設計と呼び、不確実性に基づくアクティブラーニングソリューションを用いて、これらの難解な例を抽出する。
我々のアルゴリズムは、システムが目標の性能に達したことを十分に確信している場合に実験を停止する明示的な停止基準を含む。
画像および分子データセットおよび実世界の大規模生物学的アッセイに関する実証研究は、推論セット設計のためのアクティブな学習の展開が、高いシステム性能を得ながら、実験コストの大幅な削減につながることを示唆している。
関連論文リスト
- Most Influential Subset Selection: Challenges, Promises, and Beyond [9.479235005673683]
我々は,最も集団的影響の大きいトレーニングサンプルのサブセットを特定することを目的とした,MISS(Most Influential Subset Selection)問題について検討する。
我々は、MISにおける一般的なアプローチを包括的に分析し、その強みと弱点を解明する。
本稿では,これらを反復的に適用した適応バージョンが,試料間の相互作用を効果的に捕捉できることを実証する。
論文 参考訳(メタデータ) (2024-09-25T20:00:23Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Active Learning-Based Optimization of Scientific Experimental Design [1.9705094859539976]
Active Learning(AL)は、ラベル付きトレーニングインスタンスを少なくすることで、より精度の高い機械学習アルゴリズムである。
本稿では,提案したALスキームを用いた薬物応答データセットの振り返り研究を行う。
これは、手動で設定するのではなく、科学的な実験設計がALによって最適化可能であることを示している。
論文 参考訳(メタデータ) (2021-12-29T20:02:35Z) - Efficient and accurate group testing via Belief Propagation: an
empirical study [5.706360286474043]
グループテスト問題は効率的なプーリングスキームとアルゴリズムを要求する。
目標は感染したサンプルを正確に識別し、最小限の数の検査を行うことである。
結果の精度を大幅に向上させる新しいテスト設計を提案する。
論文 参考訳(メタデータ) (2021-05-13T10:52:46Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z) - Setting up experimental Bell test with reinforcement learning [0.0]
光学実験の自動設計が可能な強化学習と模擬焼鈍を組み合わせた手法を提案する。
本稿では,ベル-CHSHの不等式に高い違反を許容する確率分布に適用することにより,本手法の妥当性について述べる。
本手法はデバイス非依存の量子情報処理におけるフォトニック実験の有用性に肯定的な影響を与える可能性がある。
論文 参考訳(メタデータ) (2020-05-04T17:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。