論文の概要: TeroSeek: An AI-Powered Knowledge Base and Retrieval Generation Platform for Terpenoid Research
- arxiv url: http://arxiv.org/abs/2505.20663v1
- Date: Tue, 27 May 2025 03:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.377647
- Title: TeroSeek: An AI-Powered Knowledge Base and Retrieval Generation Platform for Terpenoid Research
- Title(参考訳): TeroSeek: テルペノイド研究のためのAIベースの知識ベースと検索生成プラットフォーム
- Authors: Xu Kang, Siqi Jiang, Kangwei Xu, Jiahao Li, Ruibo Wu,
- Abstract要約: テルペノイドは150年以上研究されてきた天然物の重要な分類である。
著者らは、20年間にわたるテルペノイド文学から構築された知識基盤(KB)であるTeroSeekを開発した。
TeroSeekは構造化された高品質な情報を提供し、テルペノイド関連のクエリで汎用の大規模言語モデル(LLM)を上回っている。
- 参考スコア(独自算出の注目度): 10.4981672381817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Terpenoids are a crucial class of natural products that have been studied for over 150 years, but their interdisciplinary nature (spanning chemistry, pharmacology, and biology) complicates knowledge integration. To address this, the authors developed TeroSeek, a curated knowledge base (KB) built from two decades of terpenoid literature, coupled with an AI-powered question-answering chatbot and web service. Leveraging a retrieval-augmented generation (RAG) framework, TeroSeek provides structured, high-quality information and outperforms general-purpose large language models (LLMs) in terpenoid-related queries. It serves as a domain-specific expert tool for multidisciplinary research and is publicly available at http://teroseek.qmclab.com.
- Abstract(参考訳): テルペノイドは150年以上研究されてきた天然物の重要な分類であるが、その学際的な性質(化学、薬理学、生物学)は知識統合を複雑にしている。
この問題を解決するため、著者らは20年間にわたるテルペノイド文学から構築された知識ベース(KB)であるTeroSeekを開発し、AIを利用した質問応答チャットボットとWebサービスを組み合わせた。
検索強化世代(RAG)フレームワークを活用して、TeroSeekは構造化された高品質な情報を提供し、テルペノイド関連のクエリで汎用の大規模言語モデル(LLM)より優れている。
多分野の研究のためのドメイン固有のエキスパートツールとして機能し、http://teroseek.qmclab.comで公開されている。
関連論文リスト
- A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - Diagnostic Reasoning in Natural Language: Computational Model and Application [68.47402386668846]
言語基底タスク(NL-DAR)の文脈における診断誘導推論(DAR)について検討する。
パール構造因果モデルに基づくNL-DARの新しいモデリングフレームワークを提案する。
得られたデータセットを用いて,NL-DARにおける人間の意思決定過程を解析する。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - BioRAG: A RAG-LLM Framework for Biological Question Reasoning [14.05505988436551]
本稿では,Large Language Models (LLMs) フレームワークを組み込んだ新規な検索拡張生成(RAG)であるBioRAGを紹介する。
このアプローチは、基本的な知識として2200万の科学論文を解析、索引付け、セグメント化することから始まり、続いて、このドメインに適した特別な埋め込みモデルをトレーニングします。
最新の情報を必要とするクエリに対して、BioRAGは質問を分解し、検索エンジンに組み込まれた反復的な検索プロセスを用いてステップバイステップの推論を行う。
論文 参考訳(メタデータ) (2024-08-02T08:37:03Z) - BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.624608816218505]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。
私たちはまず『Understanding Literature』を2つの原子能力に分解した。
次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。
2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文 参考訳(メタデータ) (2024-06-29T15:23:28Z) - OncoGPT: A Medical Conversational Model Tailored with Oncology Domain
Expertise on a Large Language Model Meta-AI (LLaMA) [6.486978719354015]
オンコロジー関連のクエリに特化して、LLM(Large Language Models)の研究が限られている。
オンコロジーを中心としたオンライン質問応答の広範なデータ収集を行った。
実際の患者の質問に対するモデルの理解が大幅に向上するのを観察した。
論文 参考訳(メタデータ) (2024-02-26T18:33:13Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - From Large Language Models to Knowledge Graphs for Biomarker Discovery
in Cancer [0.9437165725355702]
人工知能(AI)の難しいシナリオは、バイオメディカルデータを使用して、がんの病態の診断と治療のレコメンデーションを提供することである。
大規模知識グラフ(KG)は、意味的相互関連エンティティや関係に関する事実の統合と抽出によって構築することができる。
本稿では,癌特異的バイオマーカー発見と対話型QAを活用するドメインKGを開発する。
論文 参考訳(メタデータ) (2023-10-12T14:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。