論文の概要: Conditioning Protein Generation via Hopfield Pattern Multiplicity
- arxiv url: http://arxiv.org/abs/2603.20115v1
- Date: Fri, 20 Mar 2026 16:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.241772
- Title: Conditioning Protein Generation via Hopfield Pattern Multiplicity
- Title(参考訳): ホップフィールドパターン多重性によるコンディショニングタンパク質生成
- Authors: Jeffrey D. Varner,
- Abstract要約: 幾何学的注意によるタンパク質配列生成は、トレーニングなしで小さなアライメントから可塑性ファミリーを生産する。
サンプルの注意ログにバイアスとして付加された1つのスカラーパラメータが、フルファミリーからユーザ特定サブセットへ連続的に生成することを示す。
5種のPfam族に対する実験により,4つの領域にわたる分離とギャップのモノトニックな関係が確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein sequence generation via stochastic attention produces plausible family members from small alignments without training, but treats all stored sequences equally and cannot direct generation toward a functional subset of interest. We show that a single scalar parameter, added as a bias to the sampler's attention logits, continuously shifts generation from the full family toward a user-specified subset, with no retraining and no change to the model architecture. A practitioner supplies a small set of sequences (for example, hits from a binding screen) and a multiplicity ratio that controls how strongly generation favors them. The method is agnostic to what the subset represents: binding, stability, specificity, or any other property. We find that the conditioning is exact at the level of the sampler's internal representation, but that the decoded sequence phenotype can fall short because the dimensionality reduction used to encode sequences does not always preserve the residue-level variation that defines the functional split. We term this discrepancy the calibration gap and show that it is predicted by a simple geometric measure of how well the encoding separates the functional subset from the rest of the family. Experiments on five Pfam families (Kunitz, SH3, WW, Homeobox, and Forkhead domains) confirm the monotonic relationship between separation and gap across a fourfold range of geometries. Applied to omega-conotoxin peptides targeting a calcium channel involved in pain signaling, curated seeding from 23 characterized binders produces over a thousand candidates that preserve the primary pharmacophore and all experimentally identified binding determinants. These results show that stochastic attention enables practitioners to expand a handful of experimentally characterized sequences into diverse candidate libraries without retraining a generative model.
- Abstract(参考訳): 確率的注意によるタンパク質配列生成は、訓練を受けずに小さな配列から可塑性ファミリーメンバーを生成するが、保存された全ての配列を等しく扱い、興味のある機能的なサブセットへ直接生成することができない。
サンプルの注意ログにバイアスとして付加された1つのスカラーパラメータが、モデルアーキテクチャの変更なしに、フルファミリーからユーザ指定サブセットへ連続的に生成をシフトすることを示します。
実践者は、小さなシーケンス(例えば、バインディング画面からのヒット)と、生成がいかに強く有利かを制御する多重度比を提供する。
この方法は、結合、安定性、特異性、その他の性質など、サブセットが表すものとは無関係である。
条件付けは, サンプルの内部表現のレベルでは正確であるが, 復号化シーケンス表現型は, 関数分割を定義する残差レベルを常に保持していないため, 符号化配列表現型が不足する可能性がある。
この違いをキャリブレーションギャップ(英語版)と呼び、符号化が関数的部分集合を他の族からいかにうまく分離するかの単純な幾何学的測度によって予測されることを示す。
5つのファム族(クンツ、SH3、WW、ホメオボックス、フォークヘッドドメイン)に対する実験は、4倍の領域にわたる分離とギャップの間の単調な関係を証明した。
痛みシグナル伝達に関与するカルシウムチャネルを標的とするオメガコノトキシンペプチドに対して、23種の特異的結合体から培養した種子は、一次薬理泳動を保存し、すべての実験的に同定された結合決定因子を産生する。
これらの結果から, 確率的注意は, 生成モデルの再学習を伴わずに, 実験によって特徴付けられた少数の配列を多種多様な図書館に拡張することを可能にする。
関連論文リスト
- Variational Bayesian Flow Network for Graph Generation [54.94088904387278]
グラフ生成のための変分ベイズフローネットワーク(VBFN)を提案する。
VBFNは、構造化精度で支配されるトラクタブルジョイントガウス変分信念ファミリーに対して変分リフトを行う。
合成グラフと分子グラフのデータセットでは、VBFNは忠実度と多様性を改善し、ベースライン法を超えている。
論文 参考訳(メタデータ) (2026-01-30T03:59:38Z) - You Only Train Once: Differentiable Subset Selection for Omics Data [16.72884554628602]
YOTOは、独立した遺伝子サブセットを共同で識別し、単一の異なるアーキテクチャ内で予測を行うエンドツーエンドフレームワークである。
2つの代表的単一セルRNA-seqデータセット上でYOTOを評価し,最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-12-19T15:17:34Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - StyleGenes: Discrete and Efficient Latent Distributions for GANs [149.0290830305808]
GAN(Generative Adversarial Networks)のための離散潜在分布を提案する。
連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。
私たちは生物の情報のエンコーディングからインスピレーションを得ます。
論文 参考訳(メタデータ) (2023-04-30T23:28:46Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Adversarial Estimation of Riesz Representers [21.510036777607397]
一般関数空間を用いてRiesz表現子を推定する逆フレームワークを提案する。
臨界半径(Critical radius)と呼ばれる抽象的な量で非漸近平均平方レートを証明し、ニューラルネットワーク、ランダムな森林、カーネルヒルベルト空間を主要なケースとして再現する。
論文 参考訳(メタデータ) (2020-12-30T19:46:57Z) - Mixture Representation Learning with Coupled Autoencoders [1.589915930948668]
我々は、cpl-mixVAEと呼ばれる複数の相互作用ネットワークを用いた教師なし変分フレームワークを提案する。
このフレームワークでは、各ネットワークの混合表現は、離散因子にコンセンサス制約を課すことで正規化される。
提案手法を用いて,単細胞転写データセットにおける遺伝子発現を記述した変数の離散的・連続的因子を共同で発見する。
論文 参考訳(メタデータ) (2020-07-20T04:12:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。