論文の概要: GenoTEX: A Benchmark for Automated Gene Expression Data Analysis in Alignment with Bioinformaticians
- arxiv url: http://arxiv.org/abs/2406.15341v2
- Date: Thu, 27 Mar 2025 17:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:49:43.099516
- Title: GenoTEX: A Benchmark for Automated Gene Expression Data Analysis in Alignment with Bioinformaticians
- Title(参考訳): GenoTEX: バイオインフォマティクスとのアライメントにおける遺伝子発現データ解析のベンチマーク
- Authors: Haoyang Liu, Shuyu Chen, Ye Zhang, Haohan Wang,
- Abstract要約: 本稿では、遺伝子発現データの自動解析のためのベンチマークデータセットであるGenoTEXを紹介する。
GenoTEXは、幅広い遺伝子識別問題を解決するための注釈付きコードと結果を提供する。
フレキシブルな自己補正を備えた多段階プログラミングワークフローを採用したLLMエージェントチームであるGenoAgentを紹介する。
- 参考スコア(独自算出の注目度): 19.78030916589553
- License:
- Abstract: Recent advancements in machine learning have significantly improved the identification of disease-associated genes from gene expression datasets. However, these processes often require extensive expertise and manual effort, limiting their scalability. Large Language Model (LLM)-based agents have shown promise in automating these tasks due to their increasing problem-solving abilities. To support the evaluation and development of such methods, we introduce GenoTEX, a benchmark dataset for the automated analysis of gene expression data. GenoTEX provides annotated code and results for solving a wide range of gene identification problems, encompassing dataset selection, preprocessing, and statistical analysis, in a pipeline that follows computational genomics standards. The benchmark includes expert-curated annotations from bioinformaticians to ensure accuracy and reliability. To provide baselines for these tasks, we present GenoAgent, a team of LLM-based agents that adopt a multi-step programming workflow with flexible self-correction, to collaboratively analyze gene expression datasets. Our experiments demonstrate the potential of LLM-based methods in analyzing genomic data, while error analysis highlights the challenges and areas for future improvement. We propose GenoTEX as a promising resource for benchmarking and enhancing automated methods for gene expression data analysis. The benchmark is available at https://github.com/Liu-Hy/GenoTex.
- Abstract(参考訳): 機械学習の最近の進歩は、遺伝子発現データセットから疾患関連遺伝子の同定を大幅に改善した。
しかしながら、これらのプロセスは広範囲の専門知識と手作業を必要とし、スケーラビリティを制限します。
LLM(Large Language Model)ベースのエージェントは、問題解決能力の増大により、これらのタスクを自動化することを約束している。
このような手法の評価と開発を支援するために、遺伝子発現データの自動解析のためのベンチマークデータセットであるGenoTEXを導入する。
GenoTEXは、データセットの選択、前処理、統計分析を含む幅広い遺伝子識別問題を、計算ゲノミクス標準に従うパイプラインで解決するための注釈付きコードと結果を提供する。
このベンチマークには、精度と信頼性を確保するためにバイオインフォマティクスの専門家による注釈が含まれている。
これらのタスクのベースラインを提供するために、ジェノアジェント(ジェノアジェント)というLDMベースのエージェントのチームが、フレキシブルな自己補正を伴う多段階プログラミングワークフローを採用し、遺伝子発現データセットを協調的に解析する。
本実験では, ゲノムデータ解析におけるLLM法の可能性を示すとともに, エラー解析は今後の改善の課題と課題を浮き彫りにする。
我々は、遺伝子発現データ解析の自動化手法をベンチマークし、拡張するための有望なリソースとして、GenoTEXを提案する。
ベンチマークはhttps://github.com/Liu-Hy/GenoTexで公開されている。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Toward a Team of AI-made Scientists for Scientific Discovery from Gene
Expression Data [9.767546641019862]
我々は、科学的な発見パイプラインを合理化するために設計された新しいフレームワーク、AIマニュフェストチーム(TAIS)を紹介する。
TAISは、プロジェクトマネージャ、データエンジニア、ドメインエキスパートを含むシミュレートされた役割で構成され、それぞれがLLM(Large Language Model)によって表現される。
これらの役割は、典型的にはデータ科学者が行うタスクを再現するために協力し、疾患予測遺伝子を特定することに焦点を当てている。
論文 参考訳(メタデータ) (2024-02-15T06:30:12Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - A New Deep Learning and XAI-Based Algorithm for Features Selection in
Genomics [5.787117733071415]
本稿では,ゲノム規模のデータに基づいて特徴選択を行う新しいアルゴリズムを提案する。
慢性リンパ性白血病データセットへの応用の結果は、アルゴリズムの有効性を証明している。
論文 参考訳(メタデータ) (2023-03-29T16:44:13Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Using ontology embeddings for structural inductive bias in gene
expression data analysis [6.587739898387445]
がん患者の遺伝子発現レベルに基づいて、診断、生存分析、治療計画を改善することができる。
本稿では,遺伝子発現データから患者の分類作業を行う機械学習システムに,遺伝子に関する生物学的知識を取り入れることを提案する。
論文 参考訳(メタデータ) (2020-11-22T12:13:29Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。