論文の概要: Attribution assignment for deep-generative sequence models enables interpretability analysis using positive-only data
- arxiv url: http://arxiv.org/abs/2506.23182v1
- Date: Sun, 29 Jun 2025 10:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.760698
- Title: Attribution assignment for deep-generative sequence models enables interpretability analysis using positive-only data
- Title(参考訳): 深部生成系列モデルの属性割当は、正のみのデータを用いた解釈可能性解析を可能にする
- Authors: Robert Frank, Michael Widrich, Rahmad Akbar, Günter Klambauer, Geir Kjetil Sandve, Philippe A. Robert, Victor Greiff,
- Abstract要約: 生成機械学習モデルは、望ましい性質に富んだ生物配列の広い空間を効率的に探索することで、治療設計のための強力なフレームワークを提供する。
正のラベル付きデータと負のラベル付きデータの両方を必要とする教師付き学習法とは異なり、LSTMのような生成モデルは、正のラベル付きシーケンスのみに基づいて訓練することができる。
生成モデルへの帰属方法の欠如は、そのようなモデルから解釈可能な生物学的洞察を抽出する能力を妨げている。
本研究では,GAMA(Generative Attribution Metric Analysis)を開発した。
- 参考スコア(独自算出の注目度): 3.246305861471588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative machine learning models offer a powerful framework for therapeutic design by efficiently exploring large spaces of biological sequences enriched for desirable properties. Unlike supervised learning methods, which require both positive and negative labeled data, generative models such as LSTMs can be trained solely on positively labeled sequences, for example, high-affinity antibodies. This is particularly advantageous in biological settings where negative data are scarce, unreliable, or biologically ill-defined. However, the lack of attribution methods for generative models has hindered the ability to extract interpretable biological insights from such models. To address this gap, we developed Generative Attribution Metric Analysis (GAMA), an attribution method for autoregressive generative models based on Integrated Gradients. We assessed GAMA using synthetic datasets with known ground truths to characterize its statistical behavior and validate its ability to recover biologically relevant features. We further demonstrated the utility of GAMA by applying it to experimental antibody-antigen binding data. GAMA enables model interpretability and the validation of generative sequence design strategies without the need for negative training data.
- Abstract(参考訳): 生成機械学習モデルは、望ましい性質に富んだ生物配列の広い空間を効率的に探索することで、治療設計のための強力なフレームワークを提供する。
正のラベル付きデータと負のラベル付きデータの両方を必要とする教師付き学習法とは異なり、LSTMのような生成モデルは、例えば高親和性抗体のような正のラベル付きシーケンスにのみ訓練することができる。
これは、陰性データが乏しく、信頼性が低く、生物学的に不確定な環境において特に有利である。
しかし、生成モデルへの帰属方法の欠如は、そのようなモデルから解釈可能な生物学的洞察を抽出する能力を妨げている。
このギャップに対処するため,我々はGAMA(Generative Attribution Metric Analysis)を開発した。
我々は,GAMAの統計的挙動を特徴付け,生物学的に関連性のある特徴を復元する能力を検証するために,既知の基礎的事実を持つ合成データセットを用いてGAMAを評価した。
さらに,GAMAを抗体-抗原結合データに適用することにより,GAMAの有用性を実証した。
GAMAは、負のトレーニングデータを必要とせずに、モデル解釈可能性と生成シーケンス設計戦略の検証を可能にする。
関連論文リスト
- Leveraging Diffusion Models for Synthetic Data Augmentation in Protein Subcellular Localization Classification [0.0]
ラベル一貫性を持つサンプルを生成するために,クラス条件記述拡散確率モデル(DDPM)を実装した。
私たちは、Mix LossとMix Representationという2つのハイブリッドトレーニング戦略を通じて、実際のデータとの統合を検討します。
本研究は, バイオメディカル画像分類に生成増強を取り入れた場合の, 現実的なデータ生成と堅牢な管理の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-05-28T22:58:50Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives [44.781967004009715]
合成データ統合の結果を系統的に研究し, モデル特性の受動的継承の影響について検討した。
合成データが「中立」に見える場合でも、モデルが特定の属性に対して驚くほど敏感であることがわかった。
本研究では,非微分不可能な目的に応じて意図的に合成データを制約する用語として,アクティブ継承を提案する。
論文 参考訳(メタデータ) (2024-07-01T17:26:21Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Combining propensity score methods with variational autoencoders for
generating synthetic data in presence of latent sub-groups [0.0]
ヘテロジニティは、例えば、サブグループラベルによって示されるように知られ、あるいは未知であり、双曲性や歪みのような分布の性質にのみ反映されるかもしれない。
本研究では,変分オートエンコーダ(VAE)から合成データを取得する際に,このような異種性をどのように保存し,制御するかを検討する。
論文 参考訳(メタデータ) (2023-12-12T22:49:24Z) - Inference of cell dynamics on perturbation data using adjoint
sensitivity [4.606583317143614]
データ駆動型細胞生物学のダイナミックモデルを用いて、目に見えない摂動に対する細胞の反応を予測することができる。
最近の研究は、明示的な相互作用項を持つ解釈可能なモデルの導出を実証した。
本研究は,このモデル推論手法の適用範囲を生物システムの多様性に拡張することを目的としている。
論文 参考訳(メタデータ) (2021-04-13T19:15:56Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。