論文の概要: SCOPE: Siamese Contrastive Operon Pair Embeddings for Functional Sequence Representation and Classification
- arxiv url: http://arxiv.org/abs/2605.11022v1
- Date: Sun, 10 May 2026 16:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.309984
- Title: SCOPE: Siamese Contrastive Operon Pair Embeddings for Functional Sequence Representation and Classification
- Title(参考訳): SCOPE:機能的シーケンス表現と分類のためのシームコントラストオペロンペア埋め込み
- Authors: Akarsh Gupta, Kenneth Rodrigues, Sagnik Chatterjee,
- Abstract要約: オペオンの同定は 原核生物の遺伝子制御を理解するための 基本的なステップです
DGEBベンチマークは、各配列を事前訓練されたタンパク質言語モデルに独立して埋め込み、オペニックペア分類を評価する。
タンパク質言語モデルがROC-AUCの物理化学的特徴を著しく上回るが、学習されたシームズヘッドは平均的類似性よりも有意に改善しない。
これらの結果から,タンパク質言語モデルの組込みは,オペニックペア分類のための,実用的でスケーラブルな基盤であることが示唆された。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identifying operons is a fundamental step in understanding prokaryotic gene regulation, as classifying genes into operons supports the reconstruction of regulatory networks, functional annotation of unannotated genes, and drug candidate development. Experimental approaches such as RT-PCR and RNA-seq provide precise evidence of operon structure, but are laborious and largely limited to well-studied model organisms, making scalable computational methods essential for genome-wide operon identification. Prior computational approaches have employed traditional classifiers such as logistic regression and decision trees, motivating our use of these as physicochemical baselines. The DGEB benchmark evaluates operonic pair classification by embedding each sequence independently with a pre-trained protein language model and computing pairwise cosine similarity. In contrast, our Siamese MLP learns a classifier over the fused embedding space, which is theoretically better motivated for binary classification, as cosine similarity can yield meaningless scores depending on the regularization of the embedding model. While protein language model embeddings substantially outperform physicochemical features in ROC-AUC, a learned Siamese MLP head does not significantly improve over unsupervised cosine similarity in Average Precision, suggesting that the geometry of the embedding space already captures the functional relationships needed for this task. Nonetheless, our Siamese MLP achieves a ROC-AUC of 0.71, competitive with state-of-the-art models on the DGEB leaderboard. These findings indicate that protein language model embeddings are a viable, scalable foundation for operonic pair classification across diverse microbial genomes, with implications for automated genome annotation, regulatory network reconstruction, and characterization of organisms lacking experimental operon annotations.
- Abstract(参考訳): オペロンの同定は、遺伝子をオペロンに分類する際の基本的なステップであり、オペロンは、制御ネットワークの再構築、注釈のない遺伝子の機能的アノテーション、薬物候補の発達をサポートする。
RT-PCRやRNA-seqのような実験的なアプローチはオペロンの構造の正確な証拠を提供するが、十分に研究されたモデル生物に限られており、ゲノム全体のオペロン同定に不可欠なスケーラブルな計算方法となっている。
従来の計算手法では、ロジスティック回帰や決定木といった従来の分類法を採用しており、これらを物理化学的ベースラインとして活用する動機となっている。
DGEBベンチマークは、各配列を事前訓練されたタンパク質言語モデルと独立に埋め込み、ペアワイズコサイン類似性を計算することで、オペニックペア分類を評価する。
対照的に、我々のシームズ MLP は融合埋め込み空間上の分類器を学習し、これは理論的には二項分類の動機付けがより良く、コサイン類似性は埋め込みモデルの正規化によって無意味なスコアを得ることができる。
タンパク質言語モデルの埋め込みはROC-AUCの物理化学的特性を大幅に上回っているが、学習されたシームズMLPヘッドは平均精度において教師なしコサイン類似性よりも著しく改善していないため、埋め込み空間の幾何学が既にこの課題に必要な機能的関係を捉えていることが示唆されている。
それでも、私たちのSamese MLPは、DGEBのリーダーボードの最先端モデルと競合するROC-AUC 0.71を達成しています。
これらの結果から, タンパク質言語モデル埋め込みは, 多様な微生物ゲノムにまたがるオペロン対分類のための, 実用的でスケーラブルな基盤であり, 自動ゲノムアノテーション, 制御ネットワーク再構築, 実験的なオペロンアノテーションが欠如している生物のキャラクタリゼーションに寄与することが示唆された。
関連論文リスト
- HypoGeneAgent: A Hypothesis Language Agent for Gene-Set Cluster Resolution Selection Using Perturb-seq Datasets [9.465853880657487]
大規模な単一細胞とPerturb-seqの研究は、通常、クラスタリング細胞に関係している。
本稿では,大規模言語モデル(LLM)駆動のフレームワークであるHYPOGENEAGENTを,クラスタアノテーションを定量的に最適化可能なタスクに変換する。
論文 参考訳(メタデータ) (2025-09-10T22:25:33Z) - PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs [88.98041407783502]
PRINGは、タンパク質とタンパク質の相互作用予測をグラフレベルで評価する最初のベンチマークである。
PRINGは、21,484タンパク質と186,818の相互作用からなる高品質な多種PPIネットワークデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-07-07T15:21:05Z) - Unsupervised Evolutionary Cell Type Matching via Entropy-Minimized Optimal Transport [0.8361990291694322]
本稿では,エントロピー規則化された最適輸送(OT)を利用した非教師型計算フレームワークOT-MESHについて述べる。
OT-MESHは、ノイズに対する顕著な堅牢性を保ちながら、計算効率とほぼ最適マッチング精度を達成する。
我々のフレームワークは、進化的細胞型マッピングのための原則付き、スケーラブルで、解釈可能なソリューションを提供し、種間での細胞の特殊化と保存に関する深い洞察を促進する。
論文 参考訳(メタデータ) (2025-05-30T16:20:00Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。