論文の概要: Forecasting labels under distribution-shift for machine-guided sequence
design
- arxiv url: http://arxiv.org/abs/2211.10422v1
- Date: Fri, 18 Nov 2022 18:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 16:07:07.748090
- Title: Forecasting labels under distribution-shift for machine-guided sequence
design
- Title(参考訳): 機械誘導シーケンス設計のための分布シフト時の予測ラベル
- Authors: Lauren Berk Wheelock, Stephen Malina, Jeffrey Gerold, Sam Sinai
- Abstract要約: 本稿では,高スループットライブラリの性能を予測できる意思決定手法を提案する。
提案手法は, モデルスコアを用いて図書館性能を推定するベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to design and optimize biological sequences with specific
functionalities would unlock enormous value in technology and healthcare. In
recent years, machine learning-guided sequence design has progressed this goal
significantly, though validating designed sequences in the lab or clinic takes
many months and substantial labor. It is therefore valuable to assess the
likelihood that a designed set contains sequences of the desired quality (which
often lies outside the label distribution in our training data) before
committing resources to an experiment. Forecasting, a prominent concept in many
domains where feedback can be delayed (e.g. elections), has not been used or
studied in the context of sequence design. Here we propose a method to guide
decision-making that forecasts the performance of high-throughput libraries
(e.g. containing $10^5$ unique variants) based on estimates provided by models,
providing a posterior for the distribution of labels in the library. We show
that our method outperforms baselines that naively use model scores to estimate
library performance, which are the only tool available today for this purpose.
- Abstract(参考訳): 特定の機能を持つ生物配列を設計および最適化する能力は、技術と医療における膨大な価値を解放する。
近年では、研究室やクリニックで設計されたシーケンスを検証するには数ヶ月と相当な労力を要するが、機械学習誘導シーケンスの設計がこの目標を著しく進めている。
したがって、実験にリソースを投入する前に、設計された集合が望ましい品質(トレーニングデータのラベル分布の外にあることが多い)のシーケンスを含む可能性を評価することは重要である。
予測は、フィードバックが遅れる(例えば選挙)多くの領域で顕著な概念であり、シーケンス設計の文脈では使われておらず、研究されていない。
本稿では,高スループットライブラリ(例えば10^5$のユニークな変種を含む)の性能をモデルによる推定に基づいて予測し,ライブラリ内のラベルの分布を後部で予測する手法を提案する。
提案手法は,現在利用可能な唯一のツールであるライブラリのパフォーマンスを推定するために,モデルスコアを生かして使用するベースラインよりも優れることを示す。
関連論文リスト
- LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Stream-based active learning with linear models [0.7734726150561089]
生産において、製品情報を取得するためにランダム検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。
本稿では,ストリームベースのシナリオを学習者に順次提供するための新たな戦略を提案する。
未ラベルデータポイントの通知性にしきい値を設定することにより、意思決定プロセスの反復的な側面に取り組む。
論文 参考訳(メタデータ) (2022-07-20T13:15:23Z) - Squeezing Backbone Feature Distributions to the Max for Efficient
Few-Shot Learning [3.1153758106426603]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。
本稿では,特徴ベクトルをガウス分布に近づけるように処理するトランスファーベース手法を提案する。
また,学習中に未学習のサンプルが利用可能となる多段階的数ショット学習では,達成された性能をさらに向上させる最適なトランスポートインスピレーションアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-10-18T16:29:17Z) - A Positive/Unlabeled Approach for the Segmentation of Medical Sequences
using Point-Wise Supervision [3.883460584034766]
本稿では,ポイントワイズアノテーションのみを用いて,医用画像のボリュームや動画を効率的に分割する手法を提案する。
提案手法は,ポイントワイドアノテーションを用いて,適切なポジティブ/アンラベル対象関数を用いてディープラーニングモデルを訓練する。
提案手法は,同じ問題に適応した最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-18T09:13:33Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Beta-CoRM: A Bayesian Approach for $n$-gram Profiles Analysis [0.0]
提案したモデリングの柔軟性により、生成モデルにおける特徴選択への簡単なアプローチを考えることができる。
スライスサンプリングアルゴリズムは高速な推論手順のために導出され、合成および実データシナリオに適用される。
論文 参考訳(メタデータ) (2020-11-23T17:12:34Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。