論文の概要: Active Learning of Molecular Data for Task-Specific Objectives
- arxiv url: http://arxiv.org/abs/2408.11191v1
- Date: Tue, 20 Aug 2024 20:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:06:50.019426
- Title: Active Learning of Molecular Data for Task-Specific Objectives
- Title(参考訳): タスク特化目的のための分子データの能動的学習
- Authors: Kunal Ghosh, Milica Todorović, Aki Vehtari, Patrick Rinke,
- Abstract要約: アクティブラーニング(AL)は、特にデータ効率のよい機械学習アプローチであることを約束している。
本稿では,3つの分子データセットと2つの共通科学課題に対して,系統的なAL性能評価を行う。
その結果, ALの性能は, ターゲット分子の相対分布に依存することがわかった。
- 参考スコア(独自算出の注目度): 5.307709290041582
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Active learning (AL) has shown promise for being a particularly data-efficient machine learning approach. Yet, its performance depends on the application and it is not clear when AL practitioners can expect computational savings. Here, we carry out a systematic AL performance assessment for three diverse molecular datasets and two common scientific tasks: compiling compact, informative datasets and targeted molecular searches. We implemented AL with Gaussian processes (GP) and used the many-body tensor as molecular representation. For the first task, we tested different data acquisition strategies, batch sizes and GP noise settings. AL was insensitive to the acquisition batch size and we observed the best AL performance for the acquisition strategy that combines uncertainty reduction with clustering to promote diversity. However, for optimal GP noise settings, AL did not outperform randomized selection of data points. Conversely, for targeted searches, AL outperformed random sampling and achieved data savings up to 64%. Our analysis provides insight into this task-specific performance difference in terms of target distributions and data collection strategies. We established that the performance of AL depends on the relative distribution of the target molecules in comparison to the total dataset distribution, with the largest computational savings achieved when their overlap is minimal.
- Abstract(参考訳): アクティブラーニング(AL)は、特にデータ効率のよい機械学習アプローチであることを約束している。
しかし、その性能はアプリケーションに依存しており、AL実践者がいつ計算の節約を期待できるかは明らかではない。
ここでは,3つの多様な分子データセットと2つの一般的な科学的タスクについて,体系的なAL性能評価を行う。
ALをガウス過程(GP)で実装し,多体テンソルを分子表現として使用した。
最初のタスクでは、さまざまなデータ取得戦略、バッチサイズ、GPノイズ設定をテストしました。
ALは買収バッチサイズに敏感であり,不確実性低減とクラスタリングを併用して多様性を向上する買収戦略において,最も優れたAL性能を示した。
しかし、最適なGPノイズ設定では、ALはデータポイントのランダム化選択よりも優れていなかった。
逆に、ターゲット検索では、ALはランダムサンプリングを上回り、最大64%のデータセーブを達成した。
我々の分析は、目標分布とデータ収集戦略の観点から、このタスク固有の性能差を洞察する。
その結果、ALの性能は、データセット全体の分布と比較してターゲット分子の相対分布に依存し、オーバーラップが最小限である場合の計算コストは最大であることがわかった。
関連論文リスト
- AutoAL: Automated Active Learning with Differentiable Query Strategy Search [18.23964720426325]
本研究は, AutoAL という,最初の識別可能な能動学習戦略探索手法を提案する。
任意のタスクに対して、SearchNetとFitNetはラベル付きデータを使って反復的に最適化され、そのタスクで候補ALアルゴリズムのセットがどれだけうまく機能するかを学ぶ。
AutoALは、すべての候補ALアルゴリズムや他の選択ALアプローチと比較して、常に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-10-17T17:59:09Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - On the Limitations of Simulating Active Learning [32.34440406689871]
アクティブラーニング(アクティブラーニング、英: Active Learning、AL)は、人間のアノテーションのための情報的未ラベルデータを反復的に選択する、ヒューマン・アンド・モデル・イン・ザ・ループのパラダイムである。
この障害に対する簡単な修正は、ラベル付きで公開されているデータセットをラベルなしデータのプールとして扱うことで、ALをシミュレートすることだ。
我々は、利用可能なラベル付きデータセット上でのALアルゴリズムの評価は、実データにおけるそれらの有効性に対して低いバウンドを与えるかもしれないと論じる。
論文 参考訳(メタデータ) (2023-05-21T22:52:13Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Active Learning at the ImageNet Scale [43.595076693347835]
本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
論文 参考訳(メタデータ) (2021-11-25T02:48:51Z) - Active learning for reducing labeling effort in text classification
tasks [3.8424737607413153]
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
論文 参考訳(メタデータ) (2021-09-10T13:00:36Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。