論文の概要: Gene-R1: Reasoning with Data-Augmented Lightweight LLMs for Gene Set Analysis
- arxiv url: http://arxiv.org/abs/2509.10575v1
- Date: Thu, 11 Sep 2025 17:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.678551
- Title: Gene-R1: Reasoning with Data-Augmented Lightweight LLMs for Gene Set Analysis
- Title(参考訳): Gene-R1: 遺伝子セット解析のためのデータ拡張軽量LDMによる推論
- Authors: Zhizheng Wang, Yifan Yang, Qiao Jin, Zhiyong Lu,
- Abstract要約: 我々は,軽量かつオープンソースなLLMと,遺伝子セット解析に適したステップバイステップ推論機能を備えたデータ強化学習フレームワークであるGene-R1を紹介する。
1,508個のin-distribution遺伝子セットに対する実験により、Gene-R1は商業LLMと同等の性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 14.371820114384684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The gene set analysis (GSA) is a foundational approach for uncovering the molecular functions associated with a group of genes. Recently, LLM-powered methods have emerged to annotate gene sets with biological functions together with coherent explanatory insights. However, existing studies primarily focus on proprietary models, which have been shown to outperform their open-source counterparts despite concerns over cost and data privacy. Furthermore, no research has investigated the application of advanced reasoning strategies to the GSA task. To address this gap, we introduce Gene-R1, a data-augmented learning framework that equips lightweight and open-source LLMs with step-by-step reasoning capabilities tailored to GSA. Experiments on 1,508 in-distribution gene sets demonstrate that Gene-R1 achieves substantial performance gains, matching commercial LLMs. On 106 out-of-distribution gene sets, Gene-R1 performs comparably to both commercial and large-scale LLMs, exhibiting robust generalizability across diverse gene sources.
- Abstract(参考訳): 遺伝子セット解析(英: gene set analysis、GSA)は、遺伝子群に関連する分子機能を明らかにするための基礎的なアプローチである。
近年,LLMを用いた遺伝子セットのアノテートとコヒーレントな説明的洞察が出現している。
しかし、既存の研究は主にプロプライエタリなモデルに焦点を当てており、コストとデータのプライバシーに関する懸念にもかかわらず、オープンソースモデルよりも優れていることが示されている。
さらに、GSAタスクへの高度な推論戦略の適用についての調査は行われていない。
このギャップに対処するため、GSAに適したステップバイステップ推論機能を備えた軽量かつオープンソースのLCMを備えたデータ強化学習フレームワークであるGene-R1を紹介した。
1,508個のin-distribution遺伝子セットに対する実験により、Gene-R1は商業LLMと同等の性能を発揮することが示された。
106のアウト・オブ・ディストリビューション遺伝子セットでは、Gene-R1は商業用と大規模の両方のLSMに対して可逆的に機能し、多様な遺伝子源にまたがる堅牢な一般化性を示す。
関連論文リスト
- Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation [4.268367038882249]
Genetic Promptは、遺伝的アルゴリズムとLarge Language Models(LLM)を組み合わせて合成データ生成を増強するフレームワークである。
提案手法は, 意味的テキスト属性を遺伝子配列として扱い, LLMを利用して交叉・突然変異操作をシミュレートする。
以上の結果から, 遺伝的プロンプトは, 広範囲のNLPアプリケーションに対して, 高品質な合成データを生成する有効な方法であることが明らかとなった。
論文 参考訳(メタデータ) (2025-09-02T07:35:20Z) - GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。
本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文 参考訳(メタデータ) (2025-02-10T04:29:36Z) - Survey and Improvement Strategies for Gene Prioritization with Large Language Models [61.24568051916653]
大規模言語モデル (LLM) は, 医学検査において良好に機能しているが, 希少な遺伝疾患の診断における有効性は評価されていない。
表現型と可溶性レベルに基づいて, マルチエージェントとヒトフェノタイプオントロジー(HPO)を分類した。
ベースラインでは、GPT-4は他のLLMよりも優れており、因果遺伝子を正しくランク付けする際の精度は30%近く向上した。
論文 参考訳(メタデータ) (2025-01-30T23:03:03Z) - Gene Regulatory Network Inference in the Presence of Selection Bias and Latent Confounders [14.626706466908386]
Gene Regulatory Network Inference (GRNI) は遺伝子発現データを用いて遺伝子間の因果関係を同定することを目的としている。
遺伝子発現は非コーディングRNAのような潜伏した共同設立者の影響を受けており、GRNIに複雑さを増す。
本稿では,選択バイアスと潜在的共同設立者の存在下でのGISL(Gene Regulatory Network Inference in the presence of Selection bias and Latent Confounders)を提案する。
論文 参考訳(メタデータ) (2025-01-17T11:27:58Z) - Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research [20.285114234576298]
大規模言語モデル(LLM)は、生物医学と医療の研究に期待されている。
本稿では,ゲノム学およびプロテオミクス研究における3つの新しい課題に対して,微調整LDMとマルチモーダルLSM(MLLM)のコレクションを提案する。
Geneverseのモデルは、ドメイン固有のデータセットに基づいてトレーニングされ、評価される。
適応LLMとMLLMはこれらのタスクに対して良好に動作し、クローズドソースの大規模モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-21T14:19:10Z) - GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases [5.831842925038342]
自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。
様々な生物学的データベースと自律的に相互作用し、精度を高め、幻覚の発生を減らす。
異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
論文 参考訳(メタデータ) (2024-05-25T12:35:15Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。