論文の概要: Wisteria: A Unified Multi-Scale Feature Learning Framework for DNA Language Model
- arxiv url: http://arxiv.org/abs/2605.05913v1
- Date: Thu, 07 May 2026 09:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.662304
- Title: Wisteria: A Unified Multi-Scale Feature Learning Framework for DNA Language Model
- Title(参考訳): Wisteria: DNA言語モデルのための統合されたマルチスケール機能学習フレームワーク
- Authors: Weihua Wang, Haoji Li, Feilong Bao, Lei Yang, Guanglai Gao,
- Abstract要約: Wisteriaはゲノム言語モデルであり、DNA配列の統一フレームワークにマルチスケールの特徴学習を統合する。
ワイステリアは局所的および大域的依存関係のモデリングを多スケールゲノム配列解析のために効果的に統一することを示した。
- 参考スコア(独自算出の注目度): 25.199479109127285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: DNA language model aims to decipher the regulatory grammar and semantic of genomes by capturing long range dependencies in DNA sequences. Existing methods emphasize long range token interactions but often ignore the interplay between local motifs and global dependencies. In this paper, we propose Wisteria, a genomic language model that integrates multi scale feature learning within a unified framework for DNA sequence. Specifically, Wisteria augments the Mamba based architecture with gated dilated convolutions to capture local motifs and regulatory patterns, while gated multilayer perceptrons refine global dependencies. We further introduce a Fourier based attention mechanism to support frequency domain modeling, periodic extension and length generalization. Across four experimental settings with both short and long range dependencies, Wisteria demonstrates strong performance on downstream benchmarks against competitive DNA language model baselines. These results indicate that Wisteria effectively unifies local and global dependency modeling for multi scale genomic sequence analysis.
- Abstract(参考訳): DNA言語モデルは、DNA配列の長い範囲の依存関係をキャプチャすることで、ゲノムの制御文法と意味を解読することを目的としている。
既存の方法は長距離トークンの相互作用を強調するが、局所的なモチーフとグローバルな依存関係の相互作用を無視することが多い。
本稿では,DNAシークエンスのための統合フレームワーク内で,マルチスケールの特徴学習を統合するゲノム言語モデルWisteriaを提案する。
具体的には、Wisteriaは、局所的なモチーフと規制パターンをキャプチャするために、拡張された拡張畳み込みでMambaベースのアーキテクチャを強化し、多層パーセプトロンはグローバルな依存関係を洗練させる。
さらに、周波数領域モデリング、周期拡張、長さ一般化をサポートするフーリエに基づくアテンション機構を導入する。
短距離および長距離の依存関係を持つ4つの実験的な設定の中で、Wisteriaは、競合するDNA言語モデルベースラインに対して、下流ベンチマークで強力なパフォーマンスを示している。
これらの結果は、Wisteriaがマルチスケールゲノム配列解析のための局所的および大域的依存関係モデリングを効果的に統合していることを示している。
関連論文リスト
- A Zipf-preserving, long-range correlated surrogate for written language and other symbolic sequences [0.0]
文字言語やゲノムDNAなどの記号配列は、多くの記号にまたがる特徴周波数分布と長距離相関を示す。
既存のサロゲートモデルは通常、周波数分布または相関特性を保持するが、同時には保存しない。
本稿では、元のシーケンスの経験的シンボル周波数を保存し、その長距離相関構造を再現するサロゲートモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:30:55Z) - Large-scale EM Benchmark for Multi-Organelle Instance Segmentation in the Wild [8.670858548670742]
本研究では, 多様なセルタイプにまたがる10万以上の2次元EM画像と, 実世界の変動を捉えた5つのオルガネラクラスからなる, マルチオルガネラインスタンスセグメンテーションのベンチマークを開発する。
現在のモデルでは、異種EMデータの一般化に苦慮し、グローバルな分散形態を持つオルガネラでは性能が悪くなっている。
これらの知見は,局所文脈モデルと実世界の変動性の存在下での長距離構造的連続性をモデル化する課題との根本的なミスマッチを浮き彫りにした。
論文 参考訳(メタデータ) (2026-01-18T16:09:27Z) - MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - AuraGenome: An LLM-Powered Framework for On-the-Fly Reusable and Scalable Circular Genome Visualizations [7.573142181205822]
AuraGenomeは、迅速で再利用可能な、スケーラブルな円形ゲノム視覚化のためのフレームワークである。
AuraGenomeは、セマンティック駆動のマルチエージェントワークフローとインタラクティブなビジュアル分析システムを組み合わせたものだ。
論文 参考訳(メタデータ) (2025-06-18T03:29:30Z) - Ask a Local: Detecting Hallucinations With Specialized Model Divergence [0.16874375111244325]
本研究では,大規模言語モデルに対する新しい幻覚検出手法であるAsk a Localを紹介する。
提案手法は,言語特化モデルのパープレキシティ分布のばらつきを計算し,ハロゲン化の可能性のあるスパンを同定する。
そこで本研究では,14言語にまたがる人間による質問応答データセットについて,一貫した性能を示す。
論文 参考訳(メタデータ) (2025-06-03T20:00:49Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - PhyloGen: Language Model-Enhanced Phylogenetic Inference via Graph Structure Generation [50.80441546742053]
系統樹は種間の進化的関係を解明する。
伝統的なマルコフ連鎖モンテカルロ法は、緩やかな収束と計算上の負担に直面している。
我々は、事前学習されたゲノム言語モデルを活用する新しい方法であるPhyloGenを提案する。
論文 参考訳(メタデータ) (2024-12-25T08:33:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。