論文の概要: BioACE: An Automated Framework for Biomedical Answer and Citation Evaluations
- arxiv url: http://arxiv.org/abs/2602.04982v1
- Date: Wed, 04 Feb 2026 19:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.583789
- Title: BioACE: An Automated Framework for Biomedical Answer and Citation Evaluations
- Title(参考訳): BioACE: バイオメディカルアンサーとサイテーション評価のための自動化フレームワーク
- Authors: Deepak Gupta, Davis Bartels, Dina Demner-Fuhsman,
- Abstract要約: 生成した回答の品質と、生成した回答の事実をサポートするための参照を評価することが重要である。
バイオACEは,バイオメディカルな回答と,回答に記載された事実に対する引用を自動で評価するフレームワークである。
- 参考スコア(独自算出の注目度): 5.034571649639601
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the increasing use of large language models (LLMs) for generating answers to biomedical questions, it is crucial to evaluate the quality of the generated answers and the references provided to support the facts in the generated answers. Evaluation of text generated by LLMs remains a challenge for question answering, retrieval-augmented generation (RAG), summarization, and many other natural language processing tasks in the biomedical domain, due to the requirements of expert assessment to verify consistency with the scientific literature and complex medical terminology. In this work, we propose BioACE, an automated framework for evaluating biomedical answers and citations against the facts stated in the answers. The proposed BioACE framework considers multiple aspects, including completeness, correctness, precision, and recall, in relation to the ground-truth nuggets for answer evaluation. We developed automated approaches to evaluate each of the aforementioned aspects and performed extensive experiments to assess and analyze their correlation with human evaluations. In addition, we considered multiple existing approaches, such as natural language inference (NLI) and pre-trained language models and LLMs, to evaluate the quality of evidence provided to support the generated answers in the form of citations into biomedical literature. With the detailed experiments and analysis, we provide the best approaches for biomedical answer and citation evaluation as a part of BioACE (https://github.com/deepaknlp/BioACE) evaluation package.
- Abstract(参考訳): 生物医学的問題に対する回答を生成するために,大規模言語モデル (LLM) の利用が増加する中, 生成した回答の品質と, 生成した回答の事実を裏付ける基準を評価することが重要である。
LLMが生成したテキストの評価は、科学文献や複雑な医学用語との整合性を検証するための専門家評価の要求のため、バイオメディカル領域における質問応答、検索強化世代(RAG)、要約、その他多くの自然言語処理タスクにとって依然として課題である。
本研究では,生物医学的回答を自動評価するBioACEを提案する。
提案するBioACEフレームワークは, 応答評価のための基本トラスナゲットに関して, 完全性, 正確性, 正確性, リコールを含む複数の側面を考察する。
上記の各側面を自動評価する手法を開発し、人間の評価との相関を評価・分析するための広範囲な実験を行った。
さらに,生物医学文献への引用形式で生成した回答を支援するための証拠の質を評価するために,自然言語推論(NLI)や事前学習言語モデル,LLMなどの既存手法を複数検討した。
詳細な実験と分析により,BioACE (https://github.com/deepaknlp/BioACE) 評価パッケージの一部として,生物医学的回答と引用評価のための最善のアプローチを提供する。
関連論文リスト
- BABE: Biology Arena BEnchmark [51.53220868983288]
BABEは、生物学的AIシステムの実験的推論能力を評価するために設計されたベンチマークである。
われわれのベンチマークは、AIシステムが科学者を実践するのと同じように、いかにうまく判断できるかを評価するための堅牢なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-02-05T16:39:20Z) - Biomedical Literature Q&A System Using Retrieval-Augmented Generation (RAG) [0.0]
本報告では, バイオメディカル文献質問応答システム(Q&A)について述べる。
このシステムは、PubMedの記事、キュレートされたQ&Aデータセット、医療百科事典など、さまざまなソースを統合している。
このシステムは一般の医療クエリとドメイン固有のタスクの両方をサポートし、乳がんの文献に焦点を絞った評価を行う。
論文 参考訳(メタデータ) (2025-09-05T21:29:52Z) - CaresAI at BioCreative IX Track 1 -- LLM for Biomedical QA [3.222047196930981]
大規模言語モデル(LLM)は、様々な領域にわたる正確な質問応答において、ますます明白になっている。
本稿では,BioCreative IX共有タスクのMedHopQAトラックへのアプローチについて述べる。
短い解答と長い解答を組み合わせた微調整、短い解答のみ、長い解答のみの3つの実験的な設定が検討されている。
論文 参考訳(メタデータ) (2025-08-31T11:40:02Z) - MedBioLM: Optimizing Medical and Biological QA with Fine-Tuned Large Language Models and Retrieval-Augmented Generation [0.0]
本稿では,ドメイン適応型バイオメディカル質問応答モデルであるMedBioLMを紹介する。
MedBioLMは、微調整および検索拡張生成(RAG)を統合することで、ドメイン固有の知識を動的に組み込む。
微調整はベンチマークデータセットの精度を大幅に向上する一方、RAGは事実整合性を高める。
論文 参考訳(メタデータ) (2025-02-05T08:58:35Z) - Large Language Models for Bioinformatics [58.892165394487414]
本調査はバイオインフォマティクス特化言語モデル(BioLM)の進化,分類,特徴の識別に焦点をあてる。
疾患診断, 薬物発見, ワクチン開発などの重要な分野において, バイオフィルムの幅広い応用について検討する。
データプライバシやセキュリティ上の問題,解釈可能性の問題,トレーニングデータやモデル出力のバイアス,ドメイン適応複雑性など,BioLMに固有の重要な課題や制限を特定します。
論文 参考訳(メタデータ) (2025-01-10T01:43:05Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - A Survey for Biomedical Text Summarization: From Pre-trained to Large
Language Models [21.516351027053705]
バイオメディカルテキスト要約の最近の進歩を体系的に概観する。
我々は,大規模言語モデルの時代における既存の課題と将来的な方向性について論じる。
リサーチコミュニティを促進するために、利用可能なデータセット、最近のアプローチ、コード、評価指標、パブリックプロジェクトにおけるリーダーボードなど、オープンなリソースをラインアップします。
論文 参考訳(メタデータ) (2023-04-18T06:38:40Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Automated Lay Language Summarization of Biomedical Scientific Reviews [16.01452242066412]
健康リテラシーは適切な健康判断と治療結果の確保において重要な要素として浮上している。
医療用語とこのドメインの専門言語の複雑な構造は、健康情報を解釈するのが特に困難にします。
本稿では,生物医学的レビューの要約を自動生成する新しい課題について紹介する。
論文 参考訳(メタデータ) (2020-12-23T10:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。