論文の概要: Genomic Next-Token Predictors are In-Context Learners
- arxiv url: http://arxiv.org/abs/2511.12797v1
- Date: Sun, 16 Nov 2025 21:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.54783
- Title: Genomic Next-Token Predictors are In-Context Learners
- Title(参考訳): ゲノミクスの次世代予測者はインテクスト学習者である
- Authors: Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi,
- Abstract要約: In-context Learning (ICL) は、人間のテキストの次のトーケン予測のために訓練された大規模な言語モデルで広く研究されている。
ICLは、大規模予測トレーニングによって、他の配列ドメインで有機的に発生するのか?
そこで本研究では,テキスト内デモの数が増加するにつれて,ゲノムモデルがパターン誘導の対数線形ゲインを示すことを示す。
- 参考スコア(独自算出の注目度): 34.25770424888426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training? To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.
- Abstract(参考訳): In-context Learning (ICL) - 入力に含まれる例から抽象パターンを推論し、適用するモデルの能力。
実際、先行研究はしばしば、この創発的な行動は人間の言語における独特な統計的性質に起因している。
ICLは、大規模予測トレーニングによって、他の配列ドメインで有機的に発生するのか?
これを調べるために、統計構造に富んだ代替の記号領域であるゲノム配列に目を向ける。
具体的には, 次ヌクレオチド(A/T/C/G)の予測を, 中規模のLSMに匹敵するスケールで主に訓練したEvo2ゲノムモデルについて検討する。
我々は,言語モデルとゲノムモデルの両方でインスタンス化されたシンボリック推論タスクからなる制御された実験フレームワークを開発し,ゲノムモデルと言語モデルとの直接比較を可能にした。
以上の結果から, 言語モデルと同様, パターン誘導の対数直線的増加は, 文脈内実演の数が増加するにつれて起こることが示唆された。
我々の知る限りでは、これはゲノム配列における有機的創発性ICLの最初の証拠であり、リッチデータに対する大規模予測モデルの結果、ICCが生じるという仮説を支持している。
これらの知見は、言語以外の創発的なメタラーニングを拡張し、文脈内学習の統一的でモダリティに依存しない視点を指している。
関連論文リスト
- Towards Auto-Regressive Next-Token Prediction: In-Context Learning Emerges from Generalization [26.9153121765435]
大規模言語モデル(LLM)は、文脈内学習能力を顕著に示している。
本稿では,ICLの出現と事前学習がICLに与える影響について検討する。
我々の理論は、数値線形力学系、合成GINC、実世界の言語データセットの実験によって支持されている。
論文 参考訳(メタデータ) (2025-02-24T10:26:29Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Modeling structure-building in the brain with CCG parsing and large
language models [9.17816011606258]
Combinatory Categorial Grammars (CCGs) は文法の直接合成モデルである。
我々は、より表現力のあるCCGが、fMRIで収集された人間の神経信号に対する文脈自由文法よりも優れたモデルを提供するかどうかを評価する。
論文 参考訳(メタデータ) (2022-10-28T14:21:29Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。