論文の概要: GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians
- arxiv url: http://arxiv.org/abs/2406.15341v1
- Date: Fri, 21 Jun 2024 17:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 12:43:51.093767
- Title: GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians
- Title(参考訳): GenoTEX:バイオインフォマティクスを用いたLLMによる遺伝子発現データの探索評価ベンチマーク
- Authors: Haoyang Liu, Haohan Wang,
- Abstract要約: 我々は、遺伝子発現データの自動探索のためのベンチマークデータセットであるGenoTEXを紹介する。
GenoTEXは、幅広い遺伝子識別問題を解決するための注釈付きコードと結果を提供する。
我々は、文脈対応計画、反復的修正、ドメインエキスパートコンサルティングを設計したLLMベースのエージェントチームであるGenoAgentsを紹介する。
- 参考スコア(独自算出の注目度): 13.837406082703756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in machine learning have significantly improved the identification of disease-associated genes from gene expression datasets. However, these processes often require extensive expertise and manual effort, limiting their scalability. Large Language Model (LLM)-based agents have shown promise in automating these tasks due to their increasing problem-solving abilities. To support the evaluation and development of such methods, we introduce GenoTEX, a benchmark dataset for the automatic exploration of gene expression data, involving the tasks of dataset selection, preprocessing, and statistical analysis. GenoTEX provides annotated code and results for solving a wide range of gene identification problems, in a full analysis pipeline that follows the standard of computational genomics. These annotations are curated by human bioinformaticians who carefully analyze the datasets to ensure accuracy and reliability. To provide baselines for these tasks, we present GenoAgents, a team of LLM-based agents designed with context-aware planning, iterative correction, and domain expert consultation to collaboratively explore gene datasets. Our experiments with GenoAgents demonstrate the potential of LLM-based approaches in genomics data analysis, while error analysis highlights the challenges and areas for future improvement. We propose GenoTEX as a promising resource for benchmarking and enhancing AI-driven methods for genomics data analysis. We make our benchmark publicly available at \url{https://github.com/Liu-Hy/GenoTex}.
- Abstract(参考訳): 機械学習の最近の進歩は、遺伝子発現データセットから疾患関連遺伝子の同定を大幅に改善した。
しかしながら、これらのプロセスは広範囲の専門知識と手作業を必要とし、スケーラビリティを制限します。
LLM(Large Language Model)ベースのエージェントは、問題解決能力の増大により、これらのタスクを自動化することを約束している。
このような手法の評価と開発を支援するため,遺伝子発現データの自動探索のためのベンチマークデータセットであるGenoTEXを紹介し,データセットの選択,前処理,統計解析のタスクを含む。
GenoTEXは、コンピュータゲノム学の標準に従う完全な解析パイプラインにおいて、幅広い遺伝子識別問題を解決するための注釈付きコードと結果を提供する。
これらのアノテーションは、精度と信頼性を確保するためにデータセットを慎重に分析する人間のバイオインフォマティクスによってキュレートされる。
これらのタスクのベースラインを提供するために,遺伝子データセットを協調的に探索するために,文脈認識計画,反復的修正,ドメインエキスパートコンサルテーションを設計したLLMベースのエージェントチームであるGenoAgentsを紹介する。
GenoAgentsによる我々の実験は、ゲノムデータ解析におけるLLMベースのアプローチの可能性を示しているが、エラー解析は今後の改善の課題と領域を浮き彫りにしている。
我々は、ゲノムデータ分析のためのAI駆動手法のベンチマークと拡張のための有望なリソースとして、GenoTEXを提案する。
私たちはベンチマークを \url{https://github.com/Liu-Hy/GenoTex} で公開しています。
関連論文リスト
- GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Toward a Team of AI-made Scientists for Scientific Discovery from Gene
Expression Data [9.767546641019862]
我々は、科学的な発見パイプラインを合理化するために設計された新しいフレームワーク、AIマニュフェストチーム(TAIS)を紹介する。
TAISは、プロジェクトマネージャ、データエンジニア、ドメインエキスパートを含むシミュレートされた役割で構成され、それぞれがLLM(Large Language Model)によって表現される。
これらの役割は、典型的にはデータ科学者が行うタスクを再現するために協力し、疾患予測遺伝子を特定することに焦点を当てている。
論文 参考訳(メタデータ) (2024-02-15T06:30:12Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - A New Deep Learning and XAI-Based Algorithm for Features Selection in
Genomics [5.787117733071415]
本稿では,ゲノム規模のデータに基づいて特徴選択を行う新しいアルゴリズムを提案する。
慢性リンパ性白血病データセットへの応用の結果は、アルゴリズムの有効性を証明している。
論文 参考訳(メタデータ) (2023-03-29T16:44:13Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Using ontology embeddings for structural inductive bias in gene
expression data analysis [6.587739898387445]
がん患者の遺伝子発現レベルに基づいて、診断、生存分析、治療計画を改善することができる。
本稿では,遺伝子発現データから患者の分類作業を行う機械学習システムに,遺伝子に関する生物学的知識を取り入れることを提案する。
論文 参考訳(メタデータ) (2020-11-22T12:13:29Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。