論文の概要: Rethinking Genomic Modeling Through Optical Character Recognition
- arxiv url: http://arxiv.org/abs/2602.02014v1
- Date: Mon, 02 Feb 2026 12:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.133388
- Title: Rethinking Genomic Modeling Through Optical Character Recognition
- Title(参考訳): 光文字認識によるゲノムモデリングの再考
- Authors: Hongxin Xiang, Pengsen Ma, Yunkang Cao, Di Yu, Haowen Chen, Xinyu Yang, Xiangxiang Zeng,
- Abstract要約: 我々は、光学文字認識(OCR)スタイルの文書理解としてゲノムモデリングを再構成する視覚ベースのフレームワークであるOCRを提案する。
光DNAは構造化された視覚レイアウトにDNAをレンダリングし、OCR対応の視覚言語モデルをエンコーダとエンコーダで訓練し、そこでエンコーダは高速圧縮のためにコンパクトで再構成可能な視覚トークンを生成する。
- 参考スコア(独自算出の注目度): 23.555844091817956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent genomic foundation models largely adopt large language model architectures that treat DNA as a one-dimensional token sequence. However, exhaustive sequential reading is structurally misaligned with sparse and discontinuous genomic semantics, leading to wasted computation on low-information background and preventing understanding-driven compression for long contexts. Here, we present OpticalDNA, a vision-based framework that reframes genomic modeling as Optical Character Recognition (OCR)-style document understanding. OpticalDNA renders DNA into structured visual layouts and trains an OCR-capable vision--language model with a \emph{visual DNA encoder} and a \emph{document decoder}, where the encoder produces compact, reconstructible visual tokens for high-fidelity compression. Building on this representation, OpticalDNA defines prompt-conditioned objectives over core genomic primitives-reading, region grounding, subsequence retrieval, and masked span completion-thereby learning layout-aware DNA representations that retain fine-grained genomic information under a reduced effective token budget. Across diverse genomic benchmarks, OpticalDNA consistently outperforms recent baselines; on sequences up to 450k bases, it achieves the best overall performance with nearly $20\times$ fewer effective tokens, and surpasses models with up to $985\times$ more activated parameters while tuning only 256k \emph{trainable} parameters.
- Abstract(参考訳): 最近のゲノム基盤モデルでは、DNAを1次元のトークン配列として扱う大きな言語モデルアーキテクチャが採用されている。
しかし、逐次的読み出しは構造的に不連続なゲノムセマンティクスと不一致であり、低情報背景での時間の無駄な計算と長い文脈における理解駆動圧縮の防止に繋がる。
ここでは、光学文字認識(OCR)スタイルの文書理解としてゲノムモデリングを再構成する視覚ベースのフレームワークであるOCRについて述べる。
オプティカルDNAは、構造化された視覚レイアウトにDNAをレンダリングし、OCR対応の視覚言語モデルを \emph{visual DNA encoder} と \emph{document decoder} で訓練する。
この表現に基づいて、光学DNAは、コアゲノムプリミティブの読み取り、領域の接地、サブシーケンスの検索、マスクされたスパンの完了を学習し、より詳細なゲノム情報を保持するDNA表現を効果的トークン予算の削減の下で定義する。
さまざまなゲノミクスベンチマーク全体にわたって、OptoDNAは最近のベースラインを一貫して上回り、最大450k塩基のシーケンスでは、20ドル近い有効トークンを減らし、最大985ドル以上のモデルを上回り、256k \emph{trainable}パラメータのみをチューニングする。
関連論文リスト
- MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。
MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-17T19:27:41Z) - Hyperbolic Genome Embeddings [0.6656737591902598]
我々は,生物系の進化的インフォームド構造を利用した,双曲型CNNの新しい応用法を開発した。
我々の戦略は、配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避するものである。
われわれの手法は、7つのGUEベンチマークデータセットの最先端性能を超えている。
論文 参考訳(メタデータ) (2025-07-29T10:06:17Z) - Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods [0.0]
従来のk-merトークン化は、局所的なDNA配列構造を捉えるのに効果的であるが、しばしば課題に直面している。
選択したBPEトークンを600のBPEサイクルで生成し,ユニークな6merトークンと組み合わせることを提案する。
このハイブリッドアプローチにより、バランスの取れたコンテキスト対応の語彙が保証され、モデルがショートパターンとロングパターンの両方をキャプチャできる。
論文 参考訳(メタデータ) (2025-07-24T16:45:23Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。