論文の概要: Revisiting Convolution Architecture in the Realm of DNA Foundation Models
- arxiv url: http://arxiv.org/abs/2502.18538v1
- Date: Tue, 25 Feb 2025 08:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:59:00.071121
- Title: Revisiting Convolution Architecture in the Realm of DNA Foundation Models
- Title(参考訳): DNA基盤モデルにおける畳み込みアーキテクチャの再検討
- Authors: Yu Bo, Weian Mao, Yanjun Shao, Weiqiang Bai, Peng Ye, Xinzhu Ma, Junbo Zhao, Hao Chen, Chunhua Shen,
- Abstract要約: 我々は,CNNをベースとしたCNN方式であるConvNovaを開発した。
ConvNovaはタスクの半数以上において,最近の手法を著しく上回っていることを実証した。
我々は,この研究がDNA基盤モデルに対するCNNベースの手法への新たな関心を喚起することを期待している。
- 参考スコア(独自算出の注目度): 48.10762059514028
- License:
- Abstract: In recent years, a variety of methods based on Transformer and state space model (SSM) architectures have been proposed, advancing foundational DNA language models. However, there is a lack of comparison between these recent approaches and the classical architecture convolutional networks (CNNs) on foundation model benchmarks. This raises the question: are CNNs truly being surpassed by these recent approaches based on transformer and SSM architectures? In this paper, we develop a simple but well-designed CNN-based method termed ConvNova. ConvNova identifies and proposes three effective designs: 1) dilated convolutions, 2) gated convolutions, and 3) a dual-branch framework for gating mechanisms. Through extensive empirical experiments, we demonstrate that ConvNova significantly outperforms recent methods on more than half of the tasks across several foundation model benchmarks. For example, in histone-related tasks, ConvNova exceeds the second-best method by an average of 5.8%, while generally utilizing fewer parameters and enabling faster computation. In addition, the experiments observed findings that may be related to biological characteristics. This indicates that CNNs are still a strong competitor compared to Transformers and SSMs. We anticipate that this work will spark renewed interest in CNN-based methods for DNA foundation models.
- Abstract(参考訳): 近年,トランスフォーマーと状態空間モデル(SSM)アーキテクチャに基づく様々な手法が提案され,基礎的なDNA言語モデルが進歩している。
しかし、これらのアプローチと基礎モデルベンチマークにおける古典的アーキテクチャ畳み込みネットワーク(CNN)との比較は不十分である。
CNNは、トランスフォーマーとSSMアーキテクチャに基づいた最近のアプローチに本当に追い越されているのだろうか?
本稿では,ConvNovaと呼ばれる単純なCNNベースの手法を提案する。
ConvNovaは3つの効果的な設計を提案している。
1)拡張畳み込み
2) ゲート型畳み込み,及び
3)ゲーティング機構のためのデュアルブランチフレームワーク。
大規模な実証実験を通じて、いくつかの基礎モデルベンチマークにおいて、ConvNovaはタスクの半数以上において、最近の手法を著しく上回っていることを実証した。
例えば、ヒストン関連のタスクでは、ConvNovaは平均5.8%の2番目のベストメソッドを超え、一般にパラメータを減らし、より高速な計算を可能にしている。
さらに、実験は生物学的特徴に関連する可能性のある発見を観察した。
これは、CNNがTransformersやSSMに比べて依然として強力な競合相手であることを示している。
我々は,この研究がDNA基盤モデルに対するCNNベースの手法への新たな関心を喚起することを期待している。
関連論文リスト
- Reusing Convolutional Neural Network Models through Modularization and
Composition [22.823870645316397]
我々はCNNSplitterとGradSplitterという2つのモジュール化手法を提案する。
CNNSplitterは、トレーニングされた畳み込みニューラルネットワーク(CNN)モデルを、小さな再利用可能なモジュールとして$N$に分解する。
生成されたモジュールは、既存のCNNモデルにパッチを当てたり、コンポジションを通じて新しいCNNモデルを構築するために再利用することができる。
論文 参考訳(メタデータ) (2023-11-08T03:18:49Z) - DCP-NAS: Discrepant Child-Parent Neural Architecture Search for 1-bit
CNNs [53.82853297675979]
バイナリ重みとアクティベーションを備えた1ビット畳み込みニューラルネットワーク(CNN)は、リソース制限された組み込みデバイスの可能性を示している。
自然なアプローチの1つは、NASの計算とメモリコストを削減するために1ビットCNNを使用することである。
本稿では,1ビットCNNを効率的に探索するためにDCP-NAS(Disrepant Child-Parent Neural Architecture Search)を提案する。
論文 参考訳(メタデータ) (2023-06-27T11:28:29Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Receptive Field Refinement for Convolutional Neural Networks Reliably
Improves Predictive Performance [1.52292571922932]
本稿では,このような理論的および経験的性能向上をもたらす受容場解析への新たなアプローチを提案する。
我々のアプローチは、広く知られたSOTA(State-of-the-art)モデルクラスにおいて、ImageNet1Kのパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2022-11-26T05:27:44Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。