論文の概要: Self-Improvement Imitation with Biologically Guided Search for Protein Design Under Oracle Budgets
- arxiv url: http://arxiv.org/abs/2605.26690v1
- Date: Tue, 26 May 2026 08:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.752273
- Title: Self-Improvement Imitation with Biologically Guided Search for Protein Design Under Oracle Budgets
- Title(参考訳): Oracle 予算下でのタンパク質設計のための生物学的ガイドによる自己改善模倣
- Authors: Ashima Khanna, Dominik Grimm,
- Abstract要約: 本稿では, オーラクル予算タンパク質設計のためのトラジェクトリレベルの自己改善模倣フレームワークであるSILOを紹介する。
SILOは階層的な編集ポリシーを使用して、各突然変異を位置選択に分解し、次に残基選択を行う。
評価では,8つのランドスケープのうち8つのランドスケープにおいて,最大,最上位100のフィットネスを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein sequence optimization under tight oracle budgets requires methods that explore vast combinatorial spaces while making each evaluation informative. Existing reinforcement learning and off-policy generative approaches often degrade under surrogate noise, and position-agnostic mutation proposals risk disrupting functionally critical residues. We introduce SILO, a trajectory-level self-improvement imitation framework for oracle-budgeted protein design. SILO uses a hierarchical edit policy that decomposes each mutation into a position choice followed by a residue choice. In each active-learning round, the policy samples candidate trajectories via incremental stochastic beam search without replacement (SBS), and a UCB-based proxy ensemble, combined with an alanine-scan fitness score (AFS), selects candidates with functionally relevant edits for in silico oracle evaluation. The policy is then updated by next-action cross-entropy imitation on the round's best oracle-labeled trajectories, avoiding value-function estimation. Across eight reproduced protein fitness landscapes and five strong baselines from prior work, SILO achieves the highest maximum and top-100 mean fitness on 8 of 8 landscapes within our evaluations, often exhibiting faster early-stage improvement. In low-data and noisy-proxy stress tests on two landscapes per setting, SILO remains competitive or best when several baselines degrade. Ablations show that SBS with AFS account for much of the gains, with iterative imitation providing additional improvement. Code is available at: https://github.com/grimmlab/SILO.git
- Abstract(参考訳): 厳密なオラクル予算の下でのタンパク質配列の最適化は、それぞれの評価を情報化しながら広大な組合せ空間を探索する手法を必要とする。
既存の強化学習と非政治的生成アプローチは、しばしばサロゲートノイズの下で劣化し、位置に依存しない突然変異の提案は機能的に重要な残基を乱すリスクを負う。
本稿では, オーラクル予算タンパク質設計のためのトラジェクトリレベルの自己改善模倣フレームワークであるSILOを紹介する。
SILOは階層的な編集ポリシーを使用して、各突然変異を位置選択に分解し、次に残基選択を行う。
各アクティブラーニングラウンドでは、ポリシーは、置換のない漸進的確率ビームサーチ(SBS)による候補軌跡をサンプリングし、UCBベースのプロキシアンサンブルとアラニンスキャン適合度スコア(AFS)を組み合わせて、シリコオラクル評価において機能的な編集を行う候補を選択する。
その後、この方針はラウンドの最良のオラクルラベル軌道上での次アクションのクロスエントロピーの模倣によって更新され、値関数の推定が避けられる。
8つの再現されたタンパク質のフィットネスランドスケープと5つの強いベースラインに対して,SILOは評価において8つのランドスケープのうち8つの最高,上位100のフィットネスを達成し,早期に改善することが多かった。
設定毎に2つのランドスケープ上での低データおよびノイズプロキシストレステストでは、SILOは複数のベースラインが劣化しても競争力を維持するか、最善を尽くす。
AFSのSBSは、反復的な模倣によってさらなる改善がもたらされるため、多くの利益を計上している。
コードは、https://github.com/grimmlab/SILO.gitで入手できる。
関連論文リスト
- Res$^2$CLIP: Few-Shot Generalist Anomaly Detection with Residual-to-Residual Alignment [21.61732087909472]
数ショットのジェネラリスト異常検出は、再訓練なしに新しいカテゴリに一般化するモデルを必要とする。
粗い粒度の統一されたテキストプロンプトは、きめ細かい前景と背景の違いに対応するのに苦労する。
我々は,多モードアライメントを完全に統一された残差空間にシフトさせることを提案し,残差表現は自然にきめ細かい通常の特徴差を除去する。
論文 参考訳(メタデータ) (2026-05-15T16:49:58Z) - RASP-Tuner: Retrieval-Augmented Soft Prompts for Context-Aware Black-Box Optimization in Non-Stationary Environments [0.0]
オンラインチューニングを文脈条件による後悔の最小化として提示する。
RASP-Tunerは、第一原理によって動機付けられた分解をインスタンス化する。
9つの総合的非定常ベンチマークにおいて、RASP-TunerはGP-UCBおよびCMA-ES実装と比較して累積的後悔を改善または一致させる。
論文 参考訳(メタデータ) (2026-04-20T09:52:36Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - Bayesian-guided inverse design of hyperelastic microstructures: Application to stochastic metamaterials [0.34376560669160394]
本研究の目的は,対象のマクロなストレス応答を実現する構造を同定することである。
各候補設計について、応答は高忠実度オラクルから得られる。
ベイズ誘導型逆設計フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-16T21:09:57Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Neural Nonmyopic Bayesian Optimization in Dynamic Cost Settings [73.44599934855067]
LookaHESは、動的で履歴に依存したコスト環境のために設計された非心筋BOフレームワークである。
LookaHESは、$H$-Entropy Searchのマルチステップ版と、パスワイズサンプリングとニューラルポリシー最適化を組み合わせたものだ。
私たちの革新は、構造化されたドメイン固有のアクションスペースを効果的にナビゲートするために、大きな言語モデルを含むニューラルポリシーの統合です。
論文 参考訳(メタデータ) (2026-01-10T09:49:45Z) - AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search [19.443576967819684]
LLMエージェントは、内部推論と外部ツールの相互作用をインターリーブすることによって、マルチターンタスクに対処する強力なシステムとして登場した。
マルチターンエージェントRLのための統合フレームワークであるAT$2$POを提案する。
論文 参考訳(メタデータ) (2026-01-08T09:35:49Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。