Fugu-MT 論文翻訳(概要): Genomic Language Models: Opportunities and Challenges

論文の概要: Genomic Language Models: Opportunities and Challenges

arxiv url: http://arxiv.org/abs/2407.11435v2
Date: Sun, 22 Sep 2024 16:27:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 21:10:26.217109
Title: Genomic Language Models: Opportunities and Challenges
Title（参考訳）: ゲノム言語モデル:機会と課題
Authors: Gonzalo Benegas, Chengzhong Ye, Carlos Albors, Jianan Canal Li, Yun S. Song,
Abstract要約: ゲノム言語モデル(gLM)は、ゲノムの理解を大幅に前進させる可能性がある。本稿では,機能制約予測,シーケンス設計,伝達学習など,gLMのキーとなる応用について紹介する。本稿では,gLMの開発と評価について論じる。
参考スコア（独自算出の注目度）: 0.2912705470788796
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) are having transformative impacts across a wide range of scientific fields, particularly in the biomedical sciences. Just as the goal of Natural Language Processing is to understand sequences of words, a major objective in biology is to understand biological sequences. Genomic Language Models (gLMs), which are LLMs trained on DNA sequences, have the potential to significantly advance our understanding of genomes and how DNA elements at various scales interact to give rise to complex functions. To showcase this potential, we highlight key applications of gLMs, including functional constraint prediction, sequence design, and transfer learning. Despite notable recent progress, however, developing effective and efficient gLMs presents numerous challenges, especially for species with large, complex genomes. Here, we discuss major considerations for developing and evaluating gLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、幅広い科学分野、特に生物医学分野において、変革的な影響を及ぼしている。自然言語処理の目的が単語の列を理解することにあるように、生物学の主要な目的は生物学的列を理解することである。ゲノム言語モデル(gLM)は、DNA配列に基づいて訓練されたLLMであり、ゲノムの理解を深め、様々なスケールのDNA要素がどのように相互作用して複雑な機能を引き起こすかを示す可能性がある。この可能性を示すために,機能制約予測,シーケンス設計,伝達学習など,gLMの重要応用を強調した。しかし、最近の顕著な進歩にもかかわらず、効率的かつ効率的なgLMの開発は、特に大型で複雑なゲノムを持つ種に対して多くの課題を呈している。本稿では,gLMの開発と評価について論じる。

関連論文リスト

SciHorizon-GENE: Benchmarking LLM for Life Sciences Inference from Gene Knowledge to Functional Understanding [30.790301729371475]
大規模言語モデル (LLM) は、特に知識駆動型解釈タスクにおいて、生物医学研究において期待が高まりつつあることを示している。 SciHorizon-GENE(SciHorizon-GENE)は、生物データベースから構築された大規模遺伝子中心のベンチマークである。このベンチマークは、190万以上のヒト遺伝子に対するキュレートされた知識を統合し、多様な遺伝子から機能への推論シナリオをカバーする540万以上の質問を含んでいる。
論文参考訳（メタデータ） (2026-01-19T08:06:35Z)
Leveraging Large Language Models for enzymatic reaction prediction and characterization [0.0]
大規模言語モデル(LLM)を3つの中核的生化学的タスクで体系的に評価する。単一タスクとマルチタスクの学習戦略を比較し,LoRAアダプタを用いたパラメータ効率の高い微調整手法を提案する。以上の結果から, 微調整LDMは生化学的知識を捉えることができ, マルチタスク学習は前方・後生合成予測を促進させることがわかった。
論文参考訳（メタデータ） (2025-05-08T19:53:53Z)
Large Language Models in Bioinformatics: A Survey [13.722344139230827]
大規模言語モデル(LLM)は生物情報学に革命をもたらし、DNA、RNA、タンパク質、単細胞データの高度な解析を可能にしている。この調査は、ゲノム配列モデリング、RNA構造予測、タンパク質機能推論、単細胞転写学など、最近の進歩の体系的なレビューを提供する。
論文参考訳（メタデータ） (2025-03-06T14:38:20Z)
Biological Sequence with Language Model Prompting: A Survey [14.270959261105968]
大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。本稿では, LLMを用いたプロンプトベース手法の生物学的配列への応用を系統的に検討する。
論文参考訳（メタデータ） (2025-03-06T06:28:36Z)
BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。 CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文参考訳（メタデータ） (2025-02-23T17:38:10Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
Multimodal Large Language Models for Bioimage Analysis [39.120941702559726]
MLLM(Multimodal Large Language Models)は、理解、分析、推論、一般化など、創発的な能力を示す。これらの能力により、MLLMは生物学的画像や様々なモダリティによって得られたデータから複雑な情報を抽出することを約束する。 MLLMの開発は、生物学研究における人間の研究者を増強するためのインテリジェントアシスタントやエージェントとしての役割において、公約が増していることを示している。
論文参考訳（メタデータ） (2024-07-29T08:21:25Z)
Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research [20.285114234576298]
大規模言語モデル(LLM)は、生物医学と医療の研究に期待されている。本稿では,ゲノム学およびプロテオミクス研究における3つの新しい課題に対して,微調整LDMとマルチモーダルLSM(MLLM)のコレクションを提案する。 Geneverseのモデルは、ドメイン固有のデータセットに基づいてトレーニングされ、評価される。適応LLMとMLLMはこれらのタスクに対して良好に動作し、クローズドソースの大規模モデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-06-21T14:19:10Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文参考訳（メタデータ） (2024-02-21T11:27:31Z)
When Large Language Models Meet Evolutionary Algorithms: Potential Enhancements and Challenges [50.280704114978384]
事前訓練された大規模言語モデル(LLM)は、自然なテキストを生成する強力な能力を示す。進化的アルゴリズム(EA)は、複雑な現実世界の問題に対する多様な解決策を発見できる。
論文参考訳（メタデータ） (2024-01-19T05:58:30Z)
Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文参考訳（メタデータ） (2023-10-23T13:35:24Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)
Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。 ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文参考訳（メタデータ） (2021-12-14T17:23:42Z)
Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。 ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文参考訳（メタデータ） (2020-08-05T15:45:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。