論文の概要: GROOT: Effective Design of Biological Sequences with Limited Experimental Data
- arxiv url: http://arxiv.org/abs/2411.11265v1
- Date: Mon, 18 Nov 2024 03:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:26:30.793899
- Title: GROOT: Effective Design of Biological Sequences with Limited Experimental Data
- Title(参考訳): GROOT:限られた実験データを用いた生物配列の効率的な設計
- Authors: Thanh V. T. Tran, Nhat Khang Ngo, Viet Anh Nguyen, Truong Son Hy,
- Abstract要約: 本稿では,生物配列最適化のためのグラフベースのラテント平滑化であるGROOTを紹介する。
タンパク質の最適化(GFP, AAV)やデザイン・ベンチの正確なオーラクルを用いた3つのタスクを含む,様々な生物配列設計タスクにおけるGROOTの評価を行った。
その結果、GROOTはブラックボックスのオーラクルや大量のラベル付きデータへのアクセスを必要とせず、既存のメソッドを均等に越えることを示した。
- 参考スコア(独自算出の注目度): 13.2932577265247
- License:
- Abstract: Latent space optimization (LSO) is a powerful method for designing discrete, high-dimensional biological sequences that maximize expensive black-box functions, such as wet lab experiments. This is accomplished by learning a latent space from available data and using a surrogate model to guide optimization algorithms toward optimal outputs. However, existing methods struggle when labeled data is limited, as training the surrogate model with few labeled data points can lead to subpar outputs, offering no advantage over the training data itself. We address this challenge by introducing GROOT, a Graph-based Latent Smoothing for Biological Sequence Optimization. In particular, GROOT generates pseudo-labels for neighbors sampled around the training latent embeddings. These pseudo-labels are then refined and smoothed by Label Propagation. Additionally, we theoretically and empirically justify our approach, demonstrate GROOT's ability to extrapolate to regions beyond the training set while maintaining reliability within an upper bound of their expected distances from the training regions. We evaluate GROOT on various biological sequence design tasks, including protein optimization (GFP and AAV) and three tasks with exact oracles from Design-Bench. The results demonstrate that GROOT equalizes and surpasses existing methods without requiring access to black-box oracles or vast amounts of labeled data, highlighting its practicality and effectiveness. We release our code at https://anonymous.4open.science/r/GROOT-D554
- Abstract(参考訳): 遅延空間最適化(LSO)は、ウェットラボ実験のような高価なブラックボックス関数を最大化する離散的で高次元の生物学的配列を設計するための強力な手法である。
これは、利用可能なデータから潜在空間を学習し、最適化アルゴリズムを最適出力へ導くために代理モデルを使用することによって達成される。
しかし、ラベル付きデータに制限がある場合、既存の手法では、ラベル付きデータポイントが少ないシュロゲートモデルをトレーニングすることで、サブパーアウトプットにつながる可能性があるため、トレーニングデータ自体よりもアドバンテージはない。
GROOTは,生物配列最適化のためのグラフベースのラテント平滑化である。
特に、GROOTは、トレーニング潜伏埋め込みの周りにサンプリングされた隣人の擬似ラベルを生成する。
これらの擬似ラベルは、ラベルプロパゲーションによって洗練され、滑らかにされる。
さらに、理論上、実証上、我々のアプローチを正当化し、GROOTがトレーニングセット以外の領域に露出し、トレーニング領域から期待される距離の上限内における信頼性を維持しながら、その能力を実証する。
タンパク質の最適化(GFP, AAV)やデザイン・ベンチの正確なオーラクルを用いた3つのタスクを含む,様々な生物配列設計タスクにおけるGROOTの評価を行った。
その結果、GROOTはブラックボックスのオーラクルや大量のラベル付きデータへのアクセスを必要とせず、その実用性と有効性を強調することなく、既存の手法を平等にし、超えることを示した。
コードをhttps://anonymous.4open.science/r/GROOT-D554でリリースします。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - PG-LBO: Enhancing High-Dimensional Bayesian Optimization with
Pseudo-Label and Gaussian Process Guidance [31.585328335396607]
現在の主流の手法は、ラベルのないデータのプールを利用して潜在空間を構築する可能性を見落としている。
ラベル付きデータのガイダンスを用いてラベル付きデータを効果的に活用するための新しい手法を提案する。
提案手法は,様々な最適化シナリオにおいて,既存のVAE-BOアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-28T11:57:58Z) - Semi-Supervised Object Detection with Uncurated Unlabeled Data for
Remote Sensing Images [16.660668160785615]
半教師付きオブジェクト検出(SSOD)手法は、ラベルのないデータに対して擬似ラベルを生成することでこの問題に対処する。
しかし、現実の状況では、ラベルなしデータセット内の分布外サンプル(OOD)と分布内サンプル(ID)が混在する可能性がある。
未ラベルデータに対するOpen-Set Semi-Supervised Object Detection (OSSOD)を提案する。
論文 参考訳(メタデータ) (2023-10-09T07:59:31Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - GROOT: Corrective Reward Optimization for Generative Sequential Labeling [10.306943706927004]
テキストシーケンスの生成的リワード最適化のためのフレームワークであるGROOTを提案する。
GROOTは生成逐次ラベリングモデルをトレーニングして、デコーダ出力分布と(ブラックボックス)報酬関数の値とを一致させる。
4つの公開ベンチマークで広範な実験によって示されたように、GROOTはすべての報酬指標を大幅に改善する。
論文 参考訳(メタデータ) (2022-09-29T11:35:47Z) - Generate, Annotate, and Learn: Generative Models Advance Self-Training
and Knowledge Distillation [58.64720318755764]
Semi-Supervised Learning (SSL)は多くのアプリケーションドメインで成功している。
知識蒸留(KD)により、深層ネットワークとアンサンブルの圧縮が可能となり、新しいタスク固有の未ラベルの例について知識を蒸留する際に最良の結果が得られる。
我々は、非条件生成モデルを用いて、ドメイン内の未ラベルデータを合成する「生成、注釈、学習(GAL)」と呼ばれる一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T05:01:24Z) - Densely Deformable Efficient Salient Object Detection Network [24.469522151877847]
本稿では,変形可能な畳み込みの最適背景/地上分離能力に触発されて,Densely Deformable Network (DDNet) に採用する。
密に変形可能な畳み込みから得られる塩分領域は、転置畳み込みを用いてさらに洗練され、塩分マップを最適に生成する。
その結果、現在のモデルでは一般化ポテンシャルが限られており、この方向へのさらなる研究が求められている。
論文 参考訳(メタデータ) (2021-02-12T09:17:38Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。