論文の概要: Reverse-Complement Consistency for DNA Language Models
- arxiv url: http://arxiv.org/abs/2509.18529v1
- Date: Tue, 23 Sep 2025 01:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.63941
- Title: Reverse-Complement Consistency for DNA Language Models
- Title(参考訳): DNA言語モデルにおける逆補完整合性
- Authors: Mingqian Ma,
- Abstract要約: RCCR(Reverse-Complement Consistency Regularization)を導入する。
RCCRは、シーケンス上のモデルの予測と、その逆補数上のアライメントされた予測とのばらつきを罰する。
我々は、配列分類、スカラー回帰、プロファイル予測を含む幅広いゲノムタスクにおいて、R CCRを評価する。
- 参考スコア(独自算出の注目度): 1.3073355617711322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental property of DNA is that the reverse complement (RC) of a sequence often carries identical biological meaning. However, state-of-the-art DNA language models frequently fail to capture this symmetry, producing inconsistent predictions for a sequence and its RC counterpart, which undermines their reliability. In this work, we introduce Reverse-Complement Consistency Regularization (RCCR), a simple and model-agnostic fine-tuning objective that directly penalizes the divergence between a model's prediction on a sequence and the aligned prediction on its reverse complement. We evaluate RCCR across three diverse backbones (Nucleotide Transformer, HyenaDNA, DNABERT-2) on a wide range of genomic tasks, including sequence classification, scalar regression, and profile prediction. Our experiments show that RCCR substantially improves RC robustness by dramatically reducing prediction flips and errors, all while maintaining or improving task accuracy compared to baselines such as RC data augmentation and test-time averaging. By integrating a key biological prior directly into the learning process, RCCR produces a single, intrinsically robust, and computationally efficient model fine-tuning recipe for diverse biology tasks.
- Abstract(参考訳): DNAの基本的な性質は、配列の逆補体(RC)がしばしば同じ生物学的意味を持つことである。
しかし、最先端のDNA言語モデルは、しばしばこの対称性を捉えず、配列とそのRCに対する矛盾した予測を生み出し、信頼性を損なう。
本研究は, モデル予測と, 逆補数に対するアライメント予測との相違を直接罰する, 単純かつモデルに依存しない微調整対象であるReverse-Complement Consistency Regularization (RCCR)を紹介する。
我々は,3つのバックボーン(ヌクレオチドトランスフォーマー,ハイエナDNA,DNABERT-2)のRCCRを,配列分類,スカラー回帰,プロファイル予測など幅広いゲノムタスクで評価した。
実験の結果,RCCRは予測フリップやエラーを劇的に低減し,RCデータの増大やテスト時間平均化といったベースラインよりもタスク精度を維持・改善し,RCのロバスト性を大幅に向上させることがわかった。
重要な生物学的事前を学習プロセスに直接組み込むことにより、RCCRは、多様な生物学タスクのための単一の、本質的に堅牢で、計算的に効率的なモデル微調整レシピを生成する。
関連論文リスト
- scAGC: Learning Adaptive Cell Graphs with Contrastive Guidance for Single-Cell Clustering [26.506077979458908]
コントラスト誘導で適応的なセルグラフを学習する単一セルクラスタリング法である scAGC を提案する。
scAGCは、他の最先端メソッドを一貫して上回り、それぞれ9と7のデータセットで最高のNMIとARIスコアを得る。
論文 参考訳(メタデータ) (2025-08-07T10:55:52Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - RNA Alternative Splicing Prediction with Discrete Compositional Energy
Network [21.032529696347073]
回帰タスクとしてのRNAスプライシングの予測を定式化し、学習モデルのベンチマークのための新しいトレーニングデータセット(CAPD)を構築する。
本研究では,スプライスサイト,ジャンクション,転写の階層的関係を利用した離散構成エネルギーネットワーク(DCEN)を提案する。
代替スプライシング予測の場合、DCENはその構成スプライス接合のエネルギー値を通じてmRNA転写確率をモデル化する。
論文 参考訳(メタデータ) (2021-03-07T03:15:10Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。