論文の概要: Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding
- arxiv url: http://arxiv.org/abs/2402.08075v1
- Date: Mon, 12 Feb 2024 21:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:30:06.600440
- Title: Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding
- Title(参考訳): ゲノム理解のための効率的かつスケーラブルな言語モデル
- Authors: Huixin Zhan, Ying Nian Wu, Zijun Zhang
- Abstract要約: textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
- 参考スコア(独自算出の注目度): 49.606093223945734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although DNA foundation models have advanced the understanding of genomes,
they still face significant challenges in the limited scale and diversity of
genomic data. This limitation starkly contrasts with the success of natural
language foundation models, which thrive on substantially larger scales.
Furthermore, genome understanding involves numerous downstream genome
annotation tasks with inherent data heterogeneity, thereby necessitating more
efficient and robust fine-tuning methods tailored for genomics. Here, we
present \textsc{Lingo}: \textsc{L}anguage prefix f\textsc{In}e-tuning for
\textsc{G}en\textsc{O}mes. Unlike DNA foundation models, \textsc{Lingo}
strategically leverages natural language foundation models' contextual cues,
recalibrating their linguistic knowledge to genomic sequences. \textsc{Lingo}
further accommodates numerous, heterogeneous downstream fine-tune tasks by an
adaptive rank sampling method that prunes and stochastically reintroduces
pruned singular vectors within small computational budgets. Adaptive rank
sampling outperformed existing fine-tuning methods on all benchmarked 14 genome
understanding tasks, while requiring fewer than 2\% of trainable parameters as
genomic-specific adapters. Impressively, applying these adapters on natural
language foundation models matched or even exceeded the performance of DNA
foundation models. \textsc{Lingo} presents a new paradigm of efficient and
scalable genome understanding via genomic-specific adapters on language models.
- Abstract(参考訳): DNA基盤モデルはゲノムの理解を深めてきたが、ゲノムデータの限られた規模と多様性において大きな課題に直面している。
この制限は、かなり大きなスケールで成長する自然言語基盤モデルの成功と非常に対照的である。
さらに、ゲノム理解には、固有のデータ不均一性を伴う下流ゲノムアノテーションタスクが多数含まれており、ゲノム学に適したより効率的で堅牢な微調整方法が必要である。
ここでは、 \textsc{Lingo}: \textsc{L}anguage prefix f\textsc{In}e-tuning for \textsc{G}en\textsc{O}mesを示す。
DNA基盤モデルとは異なり、textsc{Lingo} は自然言語基盤モデルの文脈的手がかりを戦略的に活用し、言語知識をゲノム配列に再分類する。
\textsc{Lingo} はさらに、小さな計算予算内でプルーンと確率的に特異ベクトルを再帰する適応的なランクサンプリング法により、多くの不均一な下流細管タスクを許容する。
アダプティブなランクサンプリングは、全14のゲノム理解タスクにおいて既存の微調整方法よりも優れ、ゲノム特異的なアダプタとしてトレーニング可能なパラメータの2\%未満を必要とした。
印象的なことに、これらのアダプタを自然言語基盤モデルに適用することは、DNA基盤モデルの性能と一致または超えた。
\textsc{Lingo} は、ゲノム特異的な言語モデル上のアダプタを通して、効率的でスケーラブルなゲノム理解の新しいパラダイムを提示する。
関連論文リスト
- Long-range gene expression prediction with token alignment of large language model [37.10820914895689]
本稿では,遺伝子配列の特徴を自然言語トークンと整合させる遺伝子配列Token Alignment(GTA)を提案する。
GTAは規制文法を学習し、遺伝子特異的な人間のアノテーションをプロンプトとして組み込むことができる。
GTAは、事前訓練された言語モデルを利用して、遺伝子発現予測に対する強力で斬新なクロスモーダルなアプローチを示す。
論文 参考訳(メタデータ) (2024-10-02T02:42:29Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D
Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。
モデルはゲノムサイトの階層的依存関係を識別できる。
17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-08T12:10:13Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。