論文の概要: HAD: Hybrid Architecture Distillation Outperforms Teacher in Genomic Sequence Modeling
- arxiv url: http://arxiv.org/abs/2505.20836v1
- Date: Tue, 27 May 2025 07:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.486115
- Title: HAD: Hybrid Architecture Distillation Outperforms Teacher in Genomic Sequence Modeling
- Title(参考訳): HAD:ハイブリッドアーキテクチャ蒸留は、ゲノム配列モデリングの教師に優れる
- Authors: Hexiong Yang, Mingrui Chen, Huaibo Huang, Junxian Duan, Jie Cao, Zhen Zhou, Ran He,
- Abstract要約: DNA配列モデリングのためのハイブリッドアーキテクチャ蒸留(HAD)手法を提案する。
我々はNTv2-500Mを教師モデルとして採用し,グループマスキング戦略を考案した。
類似したパラメータを持つモデルと比較して,本モデルは優れた性能を示した。
- 参考スコア(独自算出の注目度): 52.58723853697152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the great success of Masked Language Modeling (MLM) in the natural language domain, the paradigm of self-supervised pre-training and fine-tuning has also achieved remarkable progress in the field of DNA sequence modeling. However, previous methods often relied on massive pre-training data or large-scale base models with huge parameters, imposing a significant computational burden. To address this, many works attempted to use more compact models to achieve similar outcomes but still fell short by a considerable margin. In this work, we propose a Hybrid Architecture Distillation (HAD) approach, leveraging both distillation and reconstruction tasks for more efficient and effective pre-training. Specifically, we employ the NTv2-500M as the teacher model and devise a grouping masking strategy to align the feature embeddings of visible tokens while concurrently reconstructing the invisible tokens during MLM pre-training. To validate the effectiveness of our proposed method, we conducted comprehensive experiments on the Nucleotide Transformer Benchmark and Genomic Benchmark. Compared to models with similar parameters, our model achieved excellent performance. More surprisingly, it even surpassed the distillation ceiling-teacher model on some sub-tasks, which is more than 500 $\times$ larger. Lastly, we utilize t-SNE for more intuitive visualization, which shows that our model can gain a sophisticated understanding of the intrinsic representation pattern in genomic sequences.
- Abstract(参考訳): 自然言語領域におけるMasked Language Modeling(MLM)の大成功に触発されて、自己教師型事前学習と微調整のパラダイムは、DNA配列モデリングの分野でも顕著な進歩を遂げた。
しかし、従来の手法は、大きなパラメータを持つ大規模な事前学習データや大規模なベースモデルに依存しており、計算上の重荷を伴っていた。
これを解決するために、多くの研究が同様の結果を達成するためによりコンパクトなモデルを使うことを試みたが、それでもかなりの差で不足していた。
本研究では, 蒸留と再構築の両タスクを併用したハイブリッドアーキテクチャ蒸留(HAD)手法を, より効率的かつ効果的な事前学習のために提案する。
具体的には、NTv2-500Mを教師モデルとして採用し、MLM事前学習中に目に見えないトークンを同時に再構築しながら、可視トークンの特徴埋め込みを整列させるグループマスク戦略を考案する。
提案手法の有効性を検証するため,我々はNucleotide Transformer BenchmarkとGenomic Benchmarkの総合的な実験を行った。
類似したパラメータを持つモデルと比較して,本モデルは優れた性能を示した。
さらに驚くべきことに、サブタスクの蒸留天井教師モデルを超えており、500ドル以上もする。
最後に、より直感的な可視化にt-SNEを用い、ゲノム配列の固有表現パターンの洗練された理解が得られることを示す。
関連論文リスト
- Platonic Grounding for Efficient Multimodal Language Models [22.715168904364756]
我々は、事前訓練されたモデルの整合性に依存する既存のマルチモーダルフレームワークをモチベーションし、簡単な修正を提案する。
私たちの研究は、事前学習されたモデルをより大規模なシステムに効率的に組み合わせることにも影響します。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。