論文の概要: A primer on model-guided exploration of fitness landscapes for
biological sequence design
- arxiv url: http://arxiv.org/abs/2010.10614v2
- Date: Fri, 23 Oct 2020 14:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 04:19:42.591568
- Title: A primer on model-guided exploration of fitness landscapes for
biological sequence design
- Title(参考訳): 生物シーケンス設計のためのモデル誘導型フィットネスランドスケープ探索のプライマー
- Authors: Sam Sinai and Eric D Kelsic
- Abstract要約: このプライマーでは、「探索戦略」と呼ばれる実験設計のためのアルゴリズムが、シーケンス・トゥ・ファンクション・マップの優れたモデルを構築することとは、関連するが別の問題である点を強調している。
このプライマーは、モデルでシーケンス空間を探索する問題に興味を持つ異なる領域の研究者の出発点として機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning methods are increasingly employed to address challenges
faced by biologists. One area that will greatly benefit from this
cross-pollination is the problem of biological sequence design, which has
massive potential for therapeutic applications. However, significant
inefficiencies remain in communication between these fields which result in
biologists finding the progress in machine learning inaccessible, and hinder
machine learning scientists from contributing to impactful problems in
bioengineering. Sequence design can be seen as a search process on a discrete,
high-dimensional space, where each sequence is associated with a function. This
sequence-to-function map is known as a "Fitness Landscape". Designing a
sequence with a particular function is hence a matter of "discovering" such a
(often rare) sequence within this space. Today we can build predictive models
with good interpolation ability due to impressive progress in the synthesis and
testing of biological sequences in large numbers, which enables model training
and validation. However, it often remains a challenge to find useful sequences
with the properties that we like using these models. In particular, in this
primer we highlight that algorithms for experimental design, what we call
"exploration strategies", are a related, yet distinct problem from building
good models of sequence-to-function maps. We review advances and insights from
current literature -- by no means a complete treatment -- while highlighting
desirable features of optimal model-guided exploration, and cover potential
pitfalls drawn from our own experience. This primer can serve as a starting
point for researchers from different domains that are interested in the problem
of searching a sequence space with a model, but are perhaps unaware of
approaches that originate outside their field.
- Abstract(参考訳): 機械学習手法は、生物学者が直面する課題に対処するためにますます採用されている。
このクロスポリメーションから大きな恩恵を受ける領域の1つは、生物学的配列設計の問題である。
しかし、これらの分野間のコミュニケーションにおいて重要な非効率性は残っており、その結果、生物学者は機械学習の進歩が到達不能であることを発見し、機械学習科学者がバイオエンジニアリングにおける影響のある問題に寄与するのを妨げている。
シーケンス設計は、各シーケンスが関数に関連付けられている離散的な高次元空間上の探索過程と見なすことができる。
このシーケンス・トゥ・ファンクション・マップは"Fitness Landscape"として知られている。
従って、特定の関数を持つ配列を設計することは、この空間内でそのような(しばしば稀な)配列を「発見」する問題である。
現在では,多数の生物配列の合成とテストの著しい進歩により,補間能力に優れた予測モデルの構築が可能となり,モデルトレーニングと検証が可能になった。
しかし、これらのモデルを使うのが好きな特性を持つ有用なシーケンスを見つけることは、しばしば課題である。
特に、このプライマーでは、実験的な設計のためのアルゴリズム、いわゆる「爆発戦略」は、シーケンス対関数写像のよいモデルを構築することと関連するが、異なる問題である、と強調する。
私たちは、モデル誘導探索の望ましい特徴を強調しながら、現在の文献からの進歩と洞察 -- 決して完全な治療ではありません -- をレビューし、私たちの経験から得られる潜在的な落とし穴をカバーします。
このプライマーは、モデルでシーケンス空間を探索する問題に興味を持つ異なる領域の研究者の出発点として機能するが、おそらく、フィールドの外から派生したアプローチに気づいていない。
関連論文リスト
- A Learning Search Algorithm for the Restricted Longest Common Subsequence Problem [40.64116457007417]
RLCS問題(Restricted Longest Common Subsequence)はバイオインフォマティクスにおいて重要な応用である。
本稿では,将来性のある地域に向けて,探索プロセスを強化するための2つの新しいアプローチを提案する。
この論文の重要な貢献は、科学的な抽象が入力文字列として機能する実世界のインスタンスの生成である。
論文 参考訳(メタデータ) (2024-10-15T20:02:15Z) - Towards Statistically Significant Taxonomy Aware Co-location Pattern Detection [4.095979270829907]
目的は、統計的に重要な特徴タイプや両親のサブセットを見つけることである。
この問題は、分類学によって生成される候補コロケーションパターンの指数的な数によって、計算的に困難である。
本稿では,コロケーションパターンの統計的意義を取り入れ,評価する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-06-29T04:48:39Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Interpretable Structured Learning with Sparse Gated Sequence Encoder for
Protein-Protein Interaction Prediction [2.9488233765621295]
アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。
我々は、シーケンスのみからPPIをモデル化し、予測するための新しいディープフレームワークを提案する。
本モデルでは,シーケンスからコンテキスト化およびシーケンシャル情報を活用することによってシーケンス表現を学習するための双方向ゲート再帰ユニットを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T17:13:32Z) - AdaLead: A simple and robust adaptive greedy search algorithm for
sequence design [55.41644538483948]
我々は、容易で、拡張性があり、堅牢な進化的欲求アルゴリズム(AdaLead)を開発した。
AdaLeadは、様々な生物学的に動機づけられたシーケンスデザインの課題において、アートアプローチのより複雑な状態を克服する、驚くほど強力なベンチマークである。
論文 参考訳(メタデータ) (2020-10-05T16:40:38Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。