論文の概要: Alignment or Integration? Rethinking Multimodal Fusion in DNA-language Foundation Models
- arxiv url: http://arxiv.org/abs/2602.12286v1
- Date: Wed, 21 Jan 2026 07:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.521477
- Title: Alignment or Integration? Rethinking Multimodal Fusion in DNA-language Foundation Models
- Title(参考訳): アライメントと統合 : DNA言語基盤モデルにおけるマルチモーダル融合の再考
- Authors: Yanan Li, Christina Yi Jin, Yuan Jin, Manli Luo, Tie Xu, Shuai Jiao, Wei He, Qing Zhang,
- Abstract要約: 本研究では,DNA-言語融合のための2つの新しい手法,すなわちセマンティックアライメント法 SeqCLIP と語彙レベル統合法 OneVocab を提案する。
分類と推論タスクに関する総合的な実験は、様々なアライメント戦略が埋め込みレベルのアライメントを改善する一方で、初期の語彙レベルの統合は、DNA言語モデリングにおいてより表現力が高く効果的な表現をもたらすことを示している。
- 参考スコア(独自算出の注目度): 12.658079576520594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fusing DNA foundation models with large language models (LLMs) for DNA-language reasoning raises a fundamental question: at what level should genomic sequences and natural language interact? Most existing approaches encode DNA sequences and text separately and rely on embedding-level alignment to connect the two modalities. Such late-stage fusion compresses rich genomic sequences into fixed representations, limiting the model's ability to reason over fine-grained, token-level genomic structure. In this work, we propose two new methods for DNA-language fusion, i.e., a semantic alignment method SeqCLIP and a vocabulary-level integration method OneVocab. SeqCLIP strengthens embedding-level alignment via sequence-level contrastive pre-training, and OneVocab directly integrates genomic $k$-mers into the language model's existing vocabulary. Comprehensive experiments on classification and reasoning tasks show that, while various alignment strategies improve embedding-level fusion, early vocabulary-level integration yields more expressive and effective representations for DNA-language modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いたDNA基盤モデルの構築は、ゲノム配列と自然言語の相互作用をどのレベルで行うべきかという根本的な疑問を提起する。
既存のアプローチのほとんどは、DNA配列とテキストを別々にエンコードし、2つのモダリティを接続するために埋め込みレベルのアライメントに依存している。
このような後期融合は、リッチなゲノム配列を固定表現に圧縮し、きめ細かいトークンレベルのゲノム構造を推論するモデルの能力を制限する。
本研究では,DNA-言語融合のための2つの新しい手法,すなわち意味的アライメント法 SeqCLIP と語彙レベル統合法 OneVocab を提案する。
SeqCLIPはシーケンスレベルのコントラスト付き事前トレーニングによる埋め込みレベルのアライメントを強化し、OneVocabはゲノム$k$-mersを直接言語モデルの既存の語彙に統合する。
分類と推論タスクに関する総合的な実験は、様々なアライメント戦略が埋め込みレベルの融合を改善する一方で、初期の語彙レベルの統合は、DNA言語モデリングにおいてより表現力が高く効果的な表現をもたらすことを示している。
関連論文リスト
- Optimal Turkish Subword Strategies at Scale: Systematic Evaluation of Data, Vocabulary, Morphology Interplay [4.061135251278187]
トークン化は、形態学的にリッチな言語におけるニューラル言語モデリングのための重要な設計選択である。
トルコ語サブワードのトークン化に関する、最初の包括的で原則化された研究を提示する。
論文 参考訳(メタデータ) (2026-02-06T18:41:14Z) - MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods [0.0]
従来のk-merトークン化は、局所的なDNA配列構造を捉えるのに効果的であるが、しばしば課題に直面している。
選択したBPEトークンを600のBPEサイクルで生成し,ユニークな6merトークンと組み合わせることを提案する。
このハイブリッドアプローチにより、バランスの取れたコンテキスト対応の語彙が保証され、モデルがショートパターンとロングパターンの両方をキャプチャできる。
論文 参考訳(メタデータ) (2025-07-24T16:45:23Z) - BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。
DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。
配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル
以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文 参考訳(メタデータ) (2025-06-26T13:56:32Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。