論文の概要: Bootstrapped Training of Score-Conditioned Generator for Offline Design
of Biological Sequences
- arxiv url: http://arxiv.org/abs/2306.03111v1
- Date: Mon, 5 Jun 2023 08:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:10:36.649849
- Title: Bootstrapped Training of Score-Conditioned Generator for Offline Design
of Biological Sequences
- Title(参考訳): 生体配列のオフライン設計のためのスコアコンディション発電機のブートストラップトレーニング
- Authors: Minsu Kim, Federico Berto, Sungsoo Ahn, Jinkyoo Park
- Abstract要約: 本稿では,スコア条件付きジェネレータ(BootGen)アルゴリズムのブートストラップ型学習法を提案する。
第1段階では, アルゴリズムは, 高得点に基づくシーケンス生成の精度を高めるために, ランクに基づく重み付き生物配列生成装置を訓練する。
次のステージはブートストレッピングで、プロキシスコア関数によってラベル付けされた自己生成データでトレーニングデータセットを拡張する。
- 参考スコア(独自算出の注目度): 26.0985078141609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of optimizing biological sequences, e.g., proteins, DNA,
and RNA, to maximize a black-box score function that is only evaluated in an
offline dataset. We propose a novel solution, bootstrapped training of
score-conditioned generator (BootGen) algorithm. Our algorithm repeats a
two-stage process. In the first stage, our algorithm trains the biological
sequence generator with rank-based weights to enhance the accuracy of sequence
generation based on high scores. The subsequent stage involves bootstrapping,
which augments the training dataset with self-generated data labeled by a proxy
score function. Our key idea is to align the score-based generation with a
proxy score function, which distills the knowledge of the proxy score function
to the generator. After training, we aggregate samples from multiple
bootstrapped generators and proxies to produce a diverse design. Extensive
experiments show that our method outperforms competitive baselines on
biological sequential design tasks. We provide reproducible source code:
\href{https://github.com/kaist-silab/bootgen}{https://github.com/kaist-silab/bootgen}.
- Abstract(参考訳): 本研究では,オフラインデータセットでのみ評価されるブラックボックススコア関数を最大化するために,タンパク質,dna,rnaなどの生物配列を最適化する問題を検討する。
本稿では,スコア条件付きジェネレータ(bootgen)アルゴリズムのブートストラップトレーニングを提案する。
アルゴリズムは2段階のプロセスを繰り返します。
第1段階では, アルゴリズムは, 高得点に基づくシーケンス生成の精度を高めるために, ランクに基づく重み付き生物配列生成装置を訓練する。
次のステージはブートストレッピングで、プロキシスコア関数によってラベル付けされた自己生成データでトレーニングデータセットを拡張する。
我々のキーとなるアイデアは、スコアベースの生成をプロキシスコア関数と整合させることで、プロキシスコア関数の知識をジェネレータに抽出する。
トレーニング後、複数のブートストラップされたジェネレータとプロキシからサンプルを収集し、多様なデザインを作ります。
大規模実験により,本手法は生物の逐次設計タスクにおける競争基準よりも優れていた。
再現可能なソースコードは、 \href{https://github.com/kaist-silab/bootgen}{https://github.com/kaist-silab/bootgen}。
関連論文リスト
- Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees [11.732842929815401]
タブラルデータは取得が困難で、値が失われる。
本稿では,混合型(連続型および分類型)データの生成と計算のための新しいアプローチを提案する。
スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,我々はXGBoostを採用する。
論文 参考訳(メタデータ) (2023-09-18T17:49:09Z) - Distributive Pre-Training of Generative Modeling Using Matrix-Product
States [0.0]
本稿では,基本的なテンソルネットワーク操作,例えば和と圧縮を利用した代替的なトレーニング手法を検討する。
トレーニングアルゴリズムは、製品状態表現におけるすべてのトレーニングデータから構築された重ね合わせ状態を圧縮する。
MNISTデータセット上でアルゴリズムをベンチマークし、新しい画像と分類タスクを生成するための妥当な結果を示す。
論文 参考訳(メタデータ) (2023-06-26T15:46:08Z) - Using Intermediate Forward Iterates for Intermediate Generator
Optimization [14.987013151525368]
中間ジェネレータ最適化は、生成タスクのための任意の標準オートエンコーダパイプラインに組み込むことができる。
IGOの2つの密集予測タスク(viz.)、画像外挿、点雲デノイング(denoising)に対する応用を示す。
論文 参考訳(メタデータ) (2023-02-05T08:46:15Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Training ELECTRA Augmented with Multi-word Selection [53.77046731238381]
本稿では,マルチタスク学習に基づくELECTRAの改良を目的としたテキストエンコーダ事前学習手法を提案する。
具体的には、識別器を訓練し、置換トークンを同時に検出し、候補集合から元のトークンを選択する。
論文 参考訳(メタデータ) (2021-05-31T23:19:00Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。