論文の概要: VILLA: Versatile Information Retrieval From Scientific Literature Using Large LAnguage Models
- arxiv url: http://arxiv.org/abs/2603.23849v1
- Date: Wed, 25 Mar 2026 02:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.0894
- Title: VILLA: Versatile Information Retrieval From Scientific Literature Using Large LAnguage Models
- Title(参考訳): VILLA:大規模Languageモデルを用いた科学文献からの情報検索
- Authors: Blessy Antony, Amartya Dutta, Sneha Aggarwal, Vasu Gatne, Ozan Gökdemir, Samantha Grimes, Adam Lauring, Brian R. Wasik, Anuj Karpatne, T. M. Murali,
- Abstract要約: 我々は、科学情報抽出のための新しい多段階検索拡張生成(RAG)フレームワーク VILLA を開発した。
239件の学術論文から得られたインフルエンザAウイルス10タンパク質629件の新規変異データセットをキュレートし,変異抽出タスクの基礎的真理として機能する。
我々は,VILLAの優れた性能を,新鮮で総合的な評価と,バニラRAGおよび他の最先端のRAGおよびエージェントベースツールとの比較により実証した。
- 参考スコア(独自算出の注目度): 5.021003206899061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of high-quality ground truth datasets to train machine learning (ML) models impedes the potential of artificial intelligence (AI) for science research. Scientific information extraction (SIE) from the literature using LLMs is emerging as a powerful approach to automate the creation of these datasets. However, existing LLM-based approaches and benchmarking studies for SIE focus on broad topics such as biomedicine and chemistry, are limited to choice-based tasks, and focus on extracting information from short and well-formatted text. The potential of SIE methods in complex, open-ended tasks is considerably under-explored. In this study, we used a domain that has been virtually ignored in SIE, namely virology, to address these research gaps. We design a unique, open-ended SIE task of extracting mutations in a given virus that modify its interaction with the host. We develop a new, multi-step retrieval augmented generation (RAG) framework called VILLA for SIE. In parallel, we curate a novel dataset of 629 mutations in ten influenza A virus proteins obtained from 239 scientific publications to serve as ground truth for the mutation extraction task. Finally, we demonstrate VILLA's superior performance using a novel and comprehensive evaluation and comparison with vanilla RAG and other state-of-the art RAG- and agent-based tools for SIE.
- Abstract(参考訳): 機械学習(ML)モデルをトレーニングするための高品質な地上真実データセットの欠如は、科学研究のための人工知能(AI)の可能性を妨げる。
LLMを用いた文献からの科学的情報抽出(SIE)は、これらのデータセット作成を自動化する強力なアプローチとして現れている。
しかし、既存のLCMベースのアプローチとSIEのためのベンチマーク研究は、バイオメディシンや化学といった幅広いトピックに焦点を当てており、選択に基づくタスクに限られており、短いテキストから情報を取り出すことに重点を置いている。
複雑でオープンなタスクにおけるSIE法のポテンシャルは、かなり過小評価されている。
本研究では、これらの研究ギャップに対処するために、SIEで事実上無視された領域、すなわちウイルス学を用いた。
我々は、ホストとの相互作用を変更するウイルスの突然変異を抽出するユニークなオープンエンドSIEタスクを設計する。
我々は、SIEのためのVILLAと呼ばれる新しい多段階検索拡張生成(RAG)フレームワークを開発した。
並行して、239の学術論文から得られた10のインフルエンザAウイルスタンパク質の629の変異のデータセットをキュレートし、突然変異抽出タスクの基礎的真理として機能する。
最後に,VILLAの優れた性能を,新鮮かつ総合的な評価と,バニラRAGおよび他の最先端RAGおよびエージェントベースツールとの比較により実証した。
関連論文リスト
- WildSci: Advancing Scientific Reasoning from In-the-Wild Literature [50.16160754134139]
我々は、ピアレビューされた文献から自動的に合成されるドメイン固有の科学質問の新しいデータセットWildSciを紹介する。
複雑な科学的推論タスクを複数選択形式でフレーミングすることにより、明確に定義された報酬信号によるスケーラブルなトレーニングを可能にする。
一連の科学的ベンチマークの実験は、我々のデータセットとアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2026-01-09T06:35:23Z) - Large Language Model-Based Agents for Automated Research Reproducibility: An Exploratory Study in Alzheimer's Disease [1.9938547353667109]
我々は、National Alzheimer's Coordinating Centerの“Quick Access”データセットを使用しました。
NACCデータを用いて,高度に引用された論文を同定した。
コードの記述と実行を担当するLLMベースの自律エージェントのシミュレーション研究チームを作成しました。
論文 参考訳(メタデータ) (2025-05-29T01:31:55Z) - Biological Sequence with Language Model Prompting: A Survey [14.270959261105968]
大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。
本稿では, LLMを用いたプロンプトベース手法の生物学的配列への応用を系統的に検討する。
論文 参考訳(メタデータ) (2025-03-06T06:28:36Z) - Artificial Intelligence in Spectroscopy: Advancing Chemistry from Prediction to Generation and Beyond [38.32974480709081]
機械学習(ML)と人工知能(AI)の急速な出現は、化学に大きな変革をもたらした。
分光・分光データへのこれらの手法の適用は、分光機械学習(SpectraML)と呼ばれるが、いまだに研究が進んでいない。
我々はSpectraMLの統一的なレビューを行い、フォワードタスクと逆タスクの両方に対する最先端のアプローチを体系的に検証する。
論文 参考訳(メタデータ) (2025-02-14T04:07:25Z) - Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - CACTUS: Chemistry Agent Connecting Tool-Usage to Science [6.832077276041703]
大規模言語モデル(LLM)は、様々なドメインにおいて顕著な可能性を示しているが、ドメイン固有の知識やツールにアクセスし、推論する能力に欠けることが多い。
ケミノフォマティクスツールを統合したLCMベースのエージェントであるCACTUSを導入し,化学および分子発見における高度な推論と問題解決を可能にした。
我々は, Gemma-7b, Falcon-7b, MPT-7b, Llama2-7b, Mistral-7bなど, 様々なオープンソースのLCMを用いてCACTUSの性能評価を行った。
論文 参考訳(メタデータ) (2024-05-02T03:20:08Z) - CRISPR-GPT for Agentic Automation of Gene-editing Experiments [57.10950429181712]
大規模言語モデル(LLM)は様々なタスクにおいて有望であるが、しばしば特定の知識が欠如し、生物学的設計の問題を正確に解くのに苦労する。
本研究では,CRISPRに基づく遺伝子編集実験の設計プロセスを自動化するために,ドメイン知識と外部ツールを付加したLCMエージェントであるCRISPR-GPTを紹介する。
我々は,遺伝子編集実験をゼロから行う非専門家研究者を支援するCRISPR-GPTの可能性を示し,実世界のユースケースにおけるエージェントの有効性を検証した。
論文 参考訳(メタデータ) (2024-04-27T22:59:17Z) - SelectIT: Selective Instruction Tuning for LLMs via Uncertainty-Aware Self-Reflection [47.180664081322035]
インストラクションチューニング(IT)を用いた大規模言語モデル(LLM)の調整手法を提案する。
LLMに存在する本質的な不確実性を利用して、余分なリソースを必要とせずに、より効果的に高品質なITデータを選択する。
以上の結果から,より長く,より計算集約的なITデータが,ITの優れた情報源となる可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-26T16:21:53Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。