論文の概要: Beyond GeneGPT: A Multi-Agent Architecture with Open-Source LLMs for Enhanced Genomic Question Answering
- arxiv url: http://arxiv.org/abs/2511.15061v1
- Date: Wed, 19 Nov 2025 03:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.607353
- Title: Beyond GeneGPT: A Multi-Agent Architecture with Open-Source LLMs for Enhanced Genomic Question Answering
- Title(参考訳): GeneGPTを超えて - オープンソースのLLMを用いたマルチエージェントアーキテクチャによるゲノム質問応答の強化
- Authors: Haodong Chen, Guido Zuccon, Teerapong Leelanupab,
- Abstract要約: 我々は、Llama 3.1、Qwen2.5、Qwen2.5 Coderなどのオープンソースモデルを用いて、モノリシックなアーキテクチャでGeneGPTを再現する。
次に、ツールルーティング、クエリ生成、レスポンスバリデーションのためのエージェント特殊化を導入することで、GeneGPTを拡張するモジュール型マルチエージェントフレームワークであるOpenBioLLMを開発する。
OpenBioLLMは、ベンチマークタスクの90%以上でGeneGPTにマッチし、Gene-Turingで0.849、GeneHopで0.830を達成している。
- 参考スコア(独自算出の注目度): 29.961363790887003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic question answering often requires complex reasoning and integration across diverse biomedical sources. GeneGPT addressed this challenge by combining domain-specific APIs with OpenAI's code-davinci-002 large language model to enable natural language interaction with genomic databases. However, its reliance on a proprietary model limits scalability, increases operational costs, and raises concerns about data privacy and generalization. In this work, we revisit and reproduce GeneGPT in a pilot study using open source models, including Llama 3.1, Qwen2.5, and Qwen2.5 Coder, within a monolithic architecture; this allows us to identify the limitations of this approach. Building on this foundation, we then develop OpenBioLLM, a modular multi-agent framework that extends GeneGPT by introducing agent specialization for tool routing, query generation, and response validation. This enables coordinated reasoning and role-based task execution. OpenBioLLM matches or outperforms GeneGPT on over 90% of the benchmark tasks, achieving average scores of 0.849 on Gene-Turing and 0.830 on GeneHop, while using smaller open-source models without additional fine-tuning or tool-specific pretraining. OpenBioLLM's modular multi-agent design reduces latency by 40-50% across benchmark tasks, significantly improving efficiency without compromising model capability. The results of our comprehensive evaluation highlight the potential of open-source multi-agent systems for genomic question answering. Code and resources are available at https://github.com/ielab/OpenBioLLM.
- Abstract(参考訳): ゲノム質問応答は複雑な推論と多様なバイオメディカルソースをまたいだ統合を必要とすることが多い。
GeneGPTは、ドメイン固有のAPIとOpenAIのCode-davinci-002大言語モデルを組み合わせて、ゲノムデータベースとの自然言語インタラクションを可能にすることで、この問題に対処した。
しかし、プロプライエタリなモデルへの依存はスケーラビリティを制限し、運用コストを増大させ、データのプライバシと一般化に対する懸念を高める。
本研究では、モノリシックアーキテクチャにおいて、Llama 3.1、Qwen2.5、Qwen2.5 Coderなどのオープンソースモデルを使って、GeneGPTを再検討し、再現する。
この基盤の上に構築されたOpenBioLLMは、ツールルーティング、クエリ生成、レスポンスバリデーションのためのエージェント専門化を導入して、GeneGPTを拡張するモジュール型マルチエージェントフレームワークである。
これにより、協調推論とロールベースのタスク実行が可能になる。
OpenBioLLMは、ベンチマークタスクの90%以上でGeneGPTと一致または性能が向上し、GeneHopでは平均0.849、0.830のスコアが得られた。
OpenBioLLMのモジュール型マルチエージェント設計は、ベンチマークタスク間でのレイテンシを40-50%削減し、モデルの能力を損なうことなく効率を大幅に改善する。
包括的評価の結果は、ゲノム質問応答のためのオープンソースのマルチエージェントシステムの可能性を強調した。
コードとリソースはhttps://github.com/ielab/OpenBioLLM.comで入手できる。
関連論文リスト
- LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis [12.311957227670598]
GenoMASは、タイプされたメッセージパッシングプロトコルを通じて6つの特殊エージェントを編成する。
GenoMASの中心には、ガイド付き計画フレームワークがある。
GenoMASは生物学的に証明可能な遺伝子フェノタイプ関連をその文献で裏付ける。
論文 参考訳(メタデータ) (2025-07-28T17:55:08Z) - OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking [21.177773831820673]
ゲノム基盤モデル (GFMs) は、ゲノムをデコードするトランスフォーメーションアプローチとして登場した。
GFMがAI駆動ゲノム学の展望を拡大し、再形成するにつれ、この分野は厳密で再現可能な評価の緊急の必要性に直面している。
我々は、GFM間のデータ、モデル、ベンチマーク、解釈可能性レイヤを統合するために設計されたモジュラーベンチマークプラットフォームであるOmniGenBenchを紹介します。
論文 参考訳(メタデータ) (2025-05-20T14:16:25Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases [5.831842925038342]
自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。
様々な生物学的データベースと自律的に相互作用し、精度を高め、幻覚の発生を減らす。
異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
論文 参考訳(メタデータ) (2024-05-25T12:35:15Z) - GeneGPT: Augmenting Large Language Models with Domain Tools for Improved
Access to Biomedical Information [18.551792817140473]
我々は,国立バイオテクノロジー情報センターの Web API を LLM に教える新しい方法である GeneGPT を提案する。
CodexにNCBI Web APIによるGeneTuringテストの解決を、テキスト内学習と拡張復号アルゴリズムにより促す。
GeneGPTは、平均スコア0.83のGeneTuringベンチマークの8つのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-19T13:53:19Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。