論文の概要: How to make the most of your masked language model for protein engineering
- arxiv url: http://arxiv.org/abs/2603.10302v1
- Date: Wed, 11 Mar 2026 00:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.737922
- Title: How to make the most of your masked language model for protein engineering
- Title(参考訳): タンパク質工学のためのマスク付き言語モデルをいかに活用するか
- Authors: Calvin McCarter, Nick Bhattacharya, Sebastian W. Ober, Hunter Elliott,
- Abstract要約: タンパク質言語モデル(MLM)の柔軟な効率的なサンプリング法を提案する。
本研究は,inoとin vitroの両方のモデルおよび方法について,実際の抗体治療キャンペーンにおいて系統的に評価した。
これは、サンプリング方法の選択が、少なくとも使用したモデルと同じくらい影響があることを明らかにする。
- 参考スコア(独自算出の注目度): 4.188955986463431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A plethora of protein language models have been released in recent years. Yet comparatively little work has addressed how to best sample from them to optimize desired biological properties. We fill this gap by proposing a flexible, effective sampling method for masked language models (MLMs), and by systematically evaluating models and methods both in silico and in vitro on actual antibody therapeutics campaigns. Firstly, we propose sampling with stochastic beam search, exploiting the fact that MLMs are remarkably efficient at evaluating the pseudo-perplexity of the entire 1-edit neighborhood of a sequence. Reframing generation in terms of entire-sequence evaluation enables flexible guidance with multiple optimization objectives. Secondly, we report results from our extensive in vitro head-to-head evaluation for the antibody engineering setting. This reveals that choice of sampling method is at least as impactful as the model used, motivating future research into this under-explored area.
- Abstract(参考訳): 近年、多くのタンパク質言語モデルがリリースされている。
しかし、望まれる生物学的特性を最適化するためにサンプルを最もよく使う方法については、比較的研究がほとんど行われていない。
このギャップを埋めるために、マスキング言語モデル(MLM)のフレキシブルで効果的なサンプリング法を提案し、シリコおよびin vitroにおける実際の抗体治療キャンペーンにおいて、シリコおよびインビトロの両方のモデルと手法を体系的に評価することで、そのギャップを埋める。
まず、確率的ビームサーチによるサンプリングを提案し、MLMがシーケンスの1桁近傍全体の擬似パープレクティリティを評価するのに極めて効率的であることを示す。
シーケンス全体の評価の観点からのフレーミング生成は、複数の最適化目標を持つ柔軟なガイダンスを可能にする。
第2に, 抗体工学的設定のためのin vitro頭頭頂部評価の結果について報告する。
このことから, サンプリング手法の選択は, 使用したモデルに匹敵する影響があることが判明した。
関連論文リスト
- Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - A Robust Support Vector Machine Approach for Raman COVID-19 Data Classification [0.7864304771129751]
本稿では,ラマン分光法から得られた新型コロナウイルスの分類における,SVM(Support Vector Machine)のための新しいロバストな定式化の性能について検討する。
我々は、各観測の周囲の有界な不確実性集合を用いて、決定論的定式化の頑健な相反するモデルを導出する。
本手法の有効性は,イタリアの病院が提供した実世界のCOVID-19データセットで検証されている。
論文 参考訳(メタデータ) (2025-01-29T14:02:45Z) - Preference Optimization with Multi-Sample Comparisons [53.02717574375549]
本稿では,マルチサンプル比較を含むポストトレーニングの拡張手法を提案する。
これらのアプローチは、生成的多様性やバイアスといった重要な特徴を捉えられない。
マルチサンプル比較はシングルサンプル比較よりも集団特性の最適化に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T00:59:19Z) - A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。
ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T17:46:18Z) - Dual-stage optimizer for systematic overestimation adjustment applied to
multi-objective genetic algorithms for biomarker selection [0.18648070031379424]
特徴選択法を用いたバイオマーカー同定は,特徴数における予測能力とパシモニーのトレードオフを伴う多目的問題として扱うことができる。
提案するDOSA-MOは多目的最適化ラッパーアルゴリズムで,元の推定値,分散度,および解の特徴セットサイズが過大評価を予測する。
論文 参考訳(メタデータ) (2023-12-27T16:13:14Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。