論文の概要: Embedding Is (Almost) All You Need: Retrieval-Augmented Inference for Generalizable Genomic Prediction Tasks
- arxiv url: http://arxiv.org/abs/2508.04757v1
- Date: Wed, 06 Aug 2025 14:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.596731
- Title: Embedding Is (Almost) All You Need: Retrieval-Augmented Inference for Generalizable Genomic Prediction Tasks
- Title(参考訳): 一般化可能なゲノム予測タスクを検索して推論する「埋め込み」は(ほとんど)必要なもの
- Authors: Nirjhor Datta, Swakkhar Shatabda, M Sohel Rahman,
- Abstract要約: 埋め込みベースのパイプラインは、競争力のあるパフォーマンスを実現することができることを示す。
エンハンサー分類では、zCurveと組み合わされた埋め込みは0.68精度(微調整では0.58)を達成する。
非TATAプロモーター分類では、zCurveまたはGC含有量によるDNABERT-2の埋め込みは0.85精度(微調整0.89)に達する。
- 参考スコア(独自算出の注目度): 2.456116718524414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained DNA language models such as DNABERT-2, Nucleotide Transformer, and HyenaDNA have demonstrated strong performance on various genomic benchmarks. However, most applications rely on expensive fine-tuning, which works best when the training and test data share a similar distribution. In this work, we investigate whether task-specific fine-tuning is always necessary. We show that simple embedding-based pipelines that extract fixed representations from these models and feed them into lightweight classifiers can achieve competitive performance. In evaluation settings with different data distributions, embedding-based methods often outperform fine-tuning while reducing inference time by 10x to 20x. Our results suggest that embedding extraction is not only a strong baseline but also a more generalizable and efficient alternative to fine-tuning, especially for deployment in diverse or unseen genomic contexts. For example, in enhancer classification, HyenaDNA embeddings combined with zCurve achieve 0.68 accuracy (vs. 0.58 for fine-tuning), with an 88% reduction in inference time and over 8x lower carbon emissions (0.02 kg vs. 0.17 kg CO2). In non-TATA promoter classification, DNABERT-2 embeddings with zCurve or GC content reach 0.85 accuracy (vs. 0.89 with fine-tuning) with a 22x lower carbon footprint (0.02 kg vs. 0.44 kg CO2). These results show that embedding-based pipelines offer over 10x better carbon efficiency while maintaining strong predictive performance. The code is available here: https://github.com/NIRJHOR-DATTA/EMBEDDING-IS-ALMOST-ALL-YOU-NEED.
- Abstract(参考訳): DNABERT-2、ヌクレオチドトランスフォーマー、ハイエナDNAのような大規模な事前訓練されたDNA言語モデルは、様々なゲノムベンチマークで強い性能を示した。
しかし、ほとんどのアプリケーションは高価な微調整に依存しており、トレーニングデータとテストデータが同様の分布を共有している場合、最もうまく機能します。
本研究では,タスク固有の微調整が常に必要かどうかを検討する。
これらのモデルから固定表現を抽出し,それらを軽量な分類器に供給するシンプルな埋め込み型パイプラインは,競争性能を向上できることを示す。
異なるデータ分布による評価設定では、埋め込みベースの手法は、推論時間を10倍から20倍に削減しながら、微調整よりも優れていることが多い。
以上の結果から, 埋込抽出は強力なベースラインであるだけでなく, 微調整のより汎用的で効率的な代替手段である可能性が示唆された。
例えば、エンハンサー分類では、ハイエナDNAの埋め込みとzCurveを組み合わせると、0.68の精度(微調整では0.58)が得られ、88%の推論時間と8倍の炭素排出量(0.02 kg vs. 0.17 kg CO2)が減少する。
非TATAプロモーター分類では、DNABERT-2のzCurveまたはGC含有量による埋め込みは、22倍の炭素フットプリント(0.02 kg vs. 0.44 kg CO2)で0.85の精度(vs. 0.89の微調整)に達する。
これらの結果から, 埋込み型パイプラインは炭素効率を10倍以上に向上し, 高い予測性能を維持していることがわかった。
コードは、https://github.com/NIRJHOR-DATTA/EMBEDING-IS-ALMOST-ALL-YOU-NEEDで入手できる。
関連論文リスト
- Wine Quality Prediction with Ensemble Trees: A Unified, Leak-Free Comparative Study [0.0]
我々は,5つのアンサンブル学習者(ランドムフォレスト,グラディエントブースティング,XGBoost,LightGBM,CatBoost)を標準のVinho Verde赤と白のデータセットに統一した最初のベンチマークを提示する。
グラディエントブースティングは最高精度(赤はF1 0.693 +/- 0.028、白は0.664 +/- 0.016)を達成し、続いてランダムフォレストとXGBoostの3ポイント以内である。
我々は、最もコスト効率の良い生産モデルとしてRandom Forest、GPU効率の良い代替品としてXGBoostとLightGBM、オフラインベンチマークの精度天井としてGradient Boostingを推奨する。
論文 参考訳(メタデータ) (2025-05-30T17:02:36Z) - A Feature-Level Ensemble Model for COVID-19 Identification in CXR Images using Choquet Integral and Differential Evolution Optimization [0.7510165488300369]
新型コロナウイルスのパンデミックを緩和するための効果的な戦略は、感染した個人を特定するための検査を統合することである。
RT-PCRは、新型コロナウイルスの診断における金の基準と考えられているが、偽陰性のリスクなどいくつかの制限がある。
本稿では,事前学習したディープ・コーン・ニューラル・ニューラルネットワーク(DCNN)をアンサンブル学習フレームワークに統合した新しいディープラーニング診断システムを提案する。
論文 参考訳(メタデータ) (2025-01-14T16:28:02Z) - Fast Polypharmacy Side Effect Prediction Using Tensor Factorisation [2.631060597686179]
テンソル因子化モデルにより,多剤副作用予測における最先端性能が達成できることを実証する。
ベストモデル (SimplE) は, 963側効果に対して0.978 AUROC, 0.971 AUPRC, 1.000 AP@50の中央値を得た。
論文 参考訳(メタデータ) (2024-04-17T13:32:05Z) - Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for
Medical Image Segmentation [25.62587471067468]
RepUX-Netは、単純な大きなカーネルブロック設計を持つ純粋なCNNアーキテクチャである。
人間の視覚系における空間周波数にインスパイアされ、カーネル収束を要素的設定に変化させるよう拡張する。
論文 参考訳(メタデータ) (2023-03-10T08:38:34Z) - On the Theories Behind Hard Negative Sampling for Recommendation [51.64626293229085]
ハードネガティブサンプリング(HNS)を効果的に活用するための2つの洞察に富んだガイドラインを提供する。
パーソナライズされたランク付け(BPR)学習者におけるHNSの利用は、一方通行部分AUC(OPAUC)の最適化と等価であることを示す。
これらの分析は、初めてトップKレコメンデーションパフォーマンスを最適化するHNSの理論的基盤を確立する。
論文 参考訳(メタデータ) (2023-02-07T13:57:03Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - PRUNIX: Non-Ideality Aware Convolutional Neural Network Pruning for
Memristive Accelerators [0.36832029288386126]
PRUNIXは畳み込みニューラルネットワークのトレーニングと解析のためのフレームワークである。
メムリスタクロスバーベースの加速器への展開が提案されている。
論文 参考訳(メタデータ) (2022-02-03T18:32:03Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z) - CovidDeep: SARS-CoV-2/COVID-19 Test Based on Wearable Medical Sensors
and Efficient Neural Networks [51.589769497681175]
新型コロナウイルス(SARS-CoV-2)がパンデミックを引き起こしている。
SARS-CoV-2の逆転写-ポリメラーゼ連鎖反応に基づく現在の試験体制は、試験要求に追いついていない。
我々は,効率的なDNNと市販のWMSを組み合わせたCovidDeepというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-20T21:47:28Z) - REST: Robust and Efficient Neural Networks for Sleep Monitoring in the
Wild [62.36144064259933]
ニューラルネットワークの逆トレーニングとLipschitz定数の制御を通じて、両問題に同時に対処する新しい方法であるRESTを提案する。
私たちは、RESTがノイズの存在下で、オリジナルのフルサイズのモデルを大幅に上回る、ロバストで効率的なモデルを生成することを実証しています。
これらのモデルをスマートフォン上のAndroidアプリケーションにデプロイすることにより、RESTによってモデルが最大17倍のエネルギー削減と9倍高速な推論を達成することができることを定量的に観察する。
論文 参考訳(メタデータ) (2020-01-29T17:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。