論文の概要: GeneGPT: Teaching Large Language Models to Use NCBI Web APIs
- arxiv url: http://arxiv.org/abs/2304.09667v1
- Date: Wed, 19 Apr 2023 13:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 14:13:29.105103
- Title: GeneGPT: Teaching Large Language Models to Use NCBI Web APIs
- Title(参考訳): GeneGPT: NCBI Web APIを使うための大規模言語モデルを教える
- Authors: Qiao Jin, Yifan Yang, Qingyu Chen, Zhiyong Lu
- Abstract要約: GeneGPTは、National Center for Biotechnology Information (NCBI) の Web Application Programming Interfaces (API) を利用するための、大規模言語モデル(LLM)を教える新しい方法である。
GeneGPTは、GeneTuringデータセットの4つのワンショットタスクのうち3つと5つのゼロショットタスクのうち4つに対して、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 18.551792817140473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present GeneGPT, a novel method for teaching large language
models (LLMs) to use the Web Application Programming Interfaces (APIs) of the
National Center for Biotechnology Information (NCBI) and answer genomics
questions. Specifically, we prompt Codex (code-davinci-002) to solve the
GeneTuring tests with few-shot URL requests of NCBI API calls as demonstrations
for in-context learning. During inference, we stop the decoding once a call
request is detected and make the API call with the generated URL. We then
append the raw execution results returned by NCBI APIs to the generated texts
and continue the generation until the answer is found or another API call is
detected. Our preliminary results show that GeneGPT achieves state-of-the-art
results on three out of four one-shot tasks and four out of five zero-shot
tasks in the GeneTuring dataset. Overall, GeneGPT achieves a macro-average
score of 0.76, which is much higher than retrieval-augmented LLMs such as the
New Bing (0.44), biomedical LLMs such as BioMedLM (0.08) and BioGPT (0.04), as
well as other LLMs such as GPT-3 (0.16) and ChatGPT (0.12).
- Abstract(参考訳): 本稿では,National Center for Biotechnology Information (NCBI) の Web Application Programming Interfaces (API) を利用した大規模言語モデル (LLM) を教える新しい手法であるGeneGPTを提案する。
具体的には、Codex (code-davinci-002) に、NCBI API呼び出しのわずかなURLリクエストでGeneTuringテストを解決するよう促す。
推論中、呼び出し要求が検出されるとデコードを停止し、生成されたURLでAPIコールします。
次に、ncbi apiが返した生の実行結果を生成テキストに追加し、回答が見つかったり、別のapi呼び出しが検出されるまで生成を継続します。
予備実験の結果から,genegptは4つのゼロショットタスクのうち3つと5つのゼロショットタスクのうち4つで最先端の結果を得ることができた。
全体として、GeneGPTのマクロ平均スコアは0.76で、New Bing (0.44)、BioMedLM (0.08)、BioGPT (0.04)、GPT-3 (0.16)、ChatGPT (0.12)のような検索拡張LDMよりもはるかに高い。
関連論文リスト
- GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases [5.831842925038342]
自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。
様々な生物学的データベースと自律的に相互作用し、精度を高め、幻覚の発生を減らす。
異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
論文 参考訳(メタデータ) (2024-05-25T12:35:15Z) - BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine [19.861178160437827]
大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきた。
textscBiomedRAGは5つのバイオメディカルNLPタスクで優れたパフォーマンスを実現している。
textscBiomedRAG は、GIT と ChemProt コーパスにおいて、マイクロF1スコアが 81.42 と 88.83 の他のトリプル抽出システムより優れている。
論文 参考訳(メタデータ) (2024-05-01T12:01:39Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing [10.698756010878688]
25,005の命令から大規模言語モデル(LLM)を作成する。
命令は、80人のキュレートされた命令からランダムに3列のサンプルを引いたGPT-4言語モデルによって作成される。
いくつかのBioNLPタスクにおいて、これらの命令調整LDMを評価し、質問応答(QA)、情報抽出(IE)、テキスト生成(GEN)の3つの主要なカテゴリに分類できる。
論文 参考訳(メタデータ) (2023-10-30T19:38:50Z) - Text2KGBench: A Benchmark for Ontology-Driven Knowledge Graph Generation
from Text [2.396908230113859]
大規模言語モデル (LLM) と創発的機能を持つ基礎モデルは、多くのNLPタスクの性能を向上させることが示されている。
オントロジーでガイドされた自然言語テキストから知識グラフ(KG)を生成する言語モデルの能力を評価するベンチマークであるText2KGBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T14:47:15Z) - API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs [84.45284695156771]
API-Bankは、ツール強化された大規模言語モデルのための画期的なベンチマークである。
73のAPIツールからなる実行評価システムを開発した。
我々は、1,000の異なるドメインにまたがる2,138のAPIから1,888のツール使用対話を含む総合的なトレーニングセットを構築した。
論文 参考訳(メタデータ) (2023-04-14T14:05:32Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - BigBIO: A Framework for Data-Centric Biomedical Natural Language
Processing [13.30221348538759]
バイオメディカルNLPデータセット126以上のコミュニティライブラリであるBigBIOを紹介する。
BigBIOは、データセットとそのメタデータへのプログラムアクセスを通じて、再現可能なメタデータキュレーションを容易にする。
本稿では,タスクスキーマ,データ監査,コントリビューションガイドライン,および2つの実証的ユースケースの概要について論じる。
論文 参考訳(メタデータ) (2022-06-30T07:15:45Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - EBIC.JL -- an Efficient Implementation of Evolutionary Biclustering
Algorithm in Julia [59.422301529692454]
本稿では, Julia における最も正確なビクラスタリングアルゴリズムの実装である EBIC.JL を紹介する。
新たなバージョンでは,既存のEBICと同等の精度を維持しつつ,ほとんどの問題に対してより高速に収束することを示す。
論文 参考訳(メタデータ) (2021-05-03T22:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。