Fugu-MT 論文翻訳(概要): Can linguists better understand DNA?

論文の概要: Can linguists better understand DNA?

arxiv url: http://arxiv.org/abs/2412.07678v3
Date: Fri, 17 Jan 2025 08:54:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-20 16:02:51.180933
Title: Can linguists better understand DNA?
Title（参考訳）: 言語学者はDNAをよりよく理解できますか?
Authors: Wang Liang,
Abstract要約: 本研究では,自然言語と遺伝子配列/言語間の能力伝達の存在を論じる。 DNA-ペア分類(DNA配列類似性)とDNA-タンパク質-ペア分類(遺伝子コーディング決定)の2つの類似タスクを構築した。これらのタスクは、自然言語から遺伝子配列への能力の伝達可能性を検証するために設計された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual transfer ability, which reflects how well models fine-tuned on one source language can be applied to other languages, has been well studied in multilingual pre-trained models. However, the existence of such capability transfer between natural language and gene sequences/languages remains under explored.This study addresses this gap by drawing inspiration from the sentence-pair classification task used for evaluating sentence similarity in natural language. We constructed two analogous tasks: DNA-pair classification(DNA sequence similarity) and DNA-protein-pair classification(gene coding determination). These tasks were designed to validate the transferability of capabilities from natural language to gene sequences. Even a small-scale pre-trained model like GPT-2-small, which was pre-trained on English, achieved an accuracy of 78% on the DNA-pair classification task after being fine-tuned on English sentence-pair classification data(XTREME PAWS-X). While training a BERT model on multilingual text, the precision reached 89%. On the more complex DNA-protein-pair classification task, however, the model's output was barely distinguishable from random output.Experimental validation has confirmed that the transfer of capabilities from natural language to biological language is unequivocally present. Building on this foundation, we have also investigated the impact of model parameter scale and pre-training on this capability transfer. We provide recommendations for facilitating the transfer of capabilities from natural language to genetic language,as well as new approaches for conducting biological research based on this capability.This study offers an intriguing new perspective on exploring the relationship between natural language and genetic language.
Abstract（参考訳）: 1つのソース言語で微調整されたモデルを他の言語に適用する方法を反映した多言語転送能力は、多言語事前学習モデルでよく研究されている。しかし、このような自然言語と遺伝子配列/言語間の能力伝達の存在は、自然言語の文類似性を評価するために用いられる文対分類タスクからインスピレーションを得て、このギャップを解決している。 DNA-pair分類(DNA配列類似性)とDNA-タンパク質-pair分類(遺伝子コーディング決定)の2つの類似タスクを構築した。これらのタスクは、自然言語から遺伝子配列への能力の伝達可能性を検証するために設計された。英語で事前学習したGPT-2-smallのような小規模な事前学習モデルでさえ、英語の文対分類データ(XTREME PAWS-X)に基づいて微調整した後、DNA対分類タスクにおいて精度を78%向上させた。 BERTモデルを多言語テキストでトレーニングしている間、精度は89%に達した。しかし、より複雑なDNA-タンパク質-ペア分類タスクでは、このモデルの出力はランダムな出力とほとんど区別できず、実験的な検証により、自然言語から生物学的言語への能力の移譲は必然的に存在することが確認された。この基礎の上に構築されたモデルパラメータスケールと事前学習がこの能力伝達に与える影響についても検討した。本研究は、自然言語から遺伝言語への伝達を促進するための推奨事項と、この能力に基づく生物学的研究を行うための新たなアプローチを提供し、自然言語と遺伝言語との関係を探求するための興味深い新しい視点を提供する。

関連論文リスト

BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。 DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文参考訳（メタデータ） (2025-06-26T13:56:32Z)
DNAHLM -- DNA sequence and Human Language mixed large language Model [0.0]
本稿では、GPT-2ネットワーク上でトレーニングされた事前学習モデルについて紹介し、DNA配列と英文の組み合わせについて述べる。次に、分類やその他の下流タスクをAlpacaフォーマット命令データに変換し、命令の微調整を行う。このモデルはDNA関連ゼロショット予測およびマルチタスク応用においてその効果を実証している。
論文参考訳（メタデータ） (2024-10-22T11:51:09Z)
Exploring Adversarial Robustness in Classification tasks using DNA Language Models [11.33721814923557]
DNA言語モデルは、本質的にシークエンシングエラー、突然変異、実験室が引き起こしたノイズを含むDNA配列で動作する。この問題の重要性にもかかわらず、DNA言語モデルの堅牢性はほとんど未解明のままである。本研究は、DNA言語モデルの限界を強調し、バイオインフォマティクスにおける堅牢性の必要性を強調する。
論文参考訳（メタデータ） (2024-09-29T21:20:57Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文参考訳（メタデータ） (2023-11-21T12:34:00Z)
Generative Language Models on Nucleotide Sequences of Human Genes [0.0]
本研究は,DNA配列解析のための自己回帰型生成言語モデルであるGPT-3の開発に焦点をあてる。 DNA配列全体を扱うことは、相当な計算資源なしでは難しいため、我々はより小さなスケールで研究を行うことに決めた。まず、ほぼ完全に探索されていない問題を体系的に検討し、RNNが最善を尽くしたことを観察した。パープレキシティ(perplexity)のような古典的な指標を超えた、現実的なタスクの使用がいかに重要かが観察される。
論文参考訳（メタデータ） (2023-07-20T06:59:02Z)
T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文参考訳（メタデータ） (2023-06-08T07:33:22Z)
Languages You Know Influence Those You Learn: Impact of Language Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文参考訳（メタデータ） (2022-12-04T07:22:21Z)
Geographical Distance Is The New Hyperparameter: A Case Study Of Finding The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。 1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文参考訳（メタデータ） (2022-05-17T20:41:25Z)
Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文参考訳（メタデータ） (2022-03-24T21:24:54Z)
Cross-Lingual Ability of Multilingual Masked Language Models: A Study of Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文参考訳（メタデータ） (2022-03-16T07:09:35Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)
Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文参考訳（メタデータ） (2017-08-30T08:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。