論文の概要: BioHopR: A Benchmark for Multi-Hop, Multi-Answer Reasoning in Biomedical Domain
- arxiv url: http://arxiv.org/abs/2505.22240v2
- Date: Mon, 09 Jun 2025 00:31:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.007114
- Title: BioHopR: A Benchmark for Multi-Hop, Multi-Answer Reasoning in Biomedical Domain
- Title(参考訳): BioHopR: バイオメディカルドメインにおけるマルチホップ・マルチアンサー推論のためのベンチマーク
- Authors: Yunsoo Kim, Yusuf Abdulle, Honghan Wu,
- Abstract要約: 既存のベンチマークには、バイオメディカル領域におけるマルチホップ推論を評価する能力がない。
BioHopRは、構造化されたバイオメディカル知識グラフにおけるマルチホップ、マルチアンサー推論を評価するために設計された新しいベンチマークである。
- 参考スコア(独自算出の注目度): 2.2664030221989426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biomedical reasoning often requires traversing interconnected relationships across entities such as drugs, diseases, and proteins. Despite the increasing prominence of large language models (LLMs), existing benchmarks lack the ability to evaluate multi-hop reasoning in the biomedical domain, particularly for queries involving one-to-many and many-to-many relationships. This gap leaves the critical challenges of biomedical multi-hop reasoning underexplored. To address this, we introduce BioHopR, a novel benchmark designed to evaluate multi-hop, multi-answer reasoning in structured biomedical knowledge graphs. Built from the comprehensive PrimeKG, BioHopR includes 1-hop and 2-hop reasoning tasks that reflect real-world biomedical complexities. Evaluations of state-of-the-art models reveal that O3-mini, a proprietary reasoning-focused model, achieves 37.93% precision on 1-hop tasks and 14.57% on 2-hop tasks, outperforming proprietary models such as GPT4O and open-source biomedical models including HuatuoGPT-o1-70B and Llama-3.3-70B. However, all models exhibit significant declines in multi-hop performance, underscoring the challenges of resolving implicit reasoning steps in the biomedical domain. By addressing the lack of benchmarks for multi-hop reasoning in biomedical domain, BioHopR sets a new standard for evaluating reasoning capabilities and highlights critical gaps between proprietary and open-source models while paving the way for future advancements in biomedical LLMs.
- Abstract(参考訳): 医学的推論は、しばしば薬物、疾患、タンパク質などの物質をまたいで相互に結びついた関係をトラバースする必要がある。
大規模言語モデル(LLM)の普及にもかかわらず、既存のベンチマークでは、特に1対多と多対多の関係を含むクエリに対して、バイオメディカル領域におけるマルチホップ推論を評価する能力が欠如している。
このギャップは、未調査の生物医学的マルチホップ推論における重要な課題を残している。
そこで本研究では,構造化バイオメディカル知識グラフにおけるマルチホップ・マルチアンサー推論の評価を目的とした,新しいベンチマークであるBioHopRを紹介する。
総合的なPrimeKGから構築されたBioHopRには、現実世界の生体医学の複雑さを反映した1ホップと2ホップの推論タスクが含まれている。
最先端モデルの評価によると、プロプライエタリな推論モデルであるO3-miniは、1ホップタスクで37.93%、2ホップタスクで14.57%、GPT4OのようなプロプライエタリなモデルやHuatuo GPT-o1-70BやLlama-3.3-70Bといったオープンソースのバイオメディカルモデルよりも優れている。
しかしながら、全てのモデルでは、バイオメディカル領域における暗黙の推論ステップを解決するという課題が強調され、マルチホップ性能が著しく低下している。
バイオメディカルドメインにおけるマルチホップ推論のためのベンチマークの欠如に対処することで、BioHopRは推論能力を評価するための新しい標準を設定し、プロプライエタリモデルとオープンソースモデルの間の重要なギャップを強調しながら、将来的なバイオメディカルLLMの進歩の道を開く。
関連論文リスト
- Disentangling Reasoning and Knowledge in Medical Large Language Models [23.401484250342158]
大きな言語モデルにおける医学的推論は、臨床医の診断的思考をエミュレートすることを目的としている。
MedQA-USMLE、MedMCQA、PubMedQAといった現在のベンチマークでは、推論と事実のリコールが混在していることが多い。
バイオメディカルモデル(HuatuoGPT-o1, MedReason, m1)と一般ドメインモデル(DeepSeek-R1, o4-mini, Qwen3)を評価する。
我々は、推論重大例に基づいて微調整と強化学習を用いてBioMed-R1を訓練する。
論文 参考訳(メタデータ) (2025-05-16T17:16:27Z) - BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning [49.487327661584686]
実際の研究から5.1Kの複雑な経路問題を持つデータセットであるBioMazeを紹介する。
CoT法やグラフ拡張推論法などの手法の評価は,LLMが経路推論に苦慮していることを示している。
そこで本稿では,インタラクティブなサブグラフベースのナビゲーションにより推論を強化するLLMエージェントであるPathSeekerを提案する。
論文 参考訳(メタデータ) (2025-02-23T17:38:10Z) - COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。
まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文 参考訳(メタデータ) (2024-12-13T18:42:00Z) - μ-Bench: A Vision-Language Benchmark for Microscopy Understanding [43.27182445778988]
視覚言語モデル(VLM)は、大規模生物学的画像解析に有望なソリューションを提供する。
VLMを評価するための、標準化された、多様な、そして大規模なビジョンベンチマークが欠如している。
mu-Benchは22のバイオメディカルタスクを含む専門家によるベンチマークである。
論文 参考訳(メタデータ) (2024-07-01T20:30:26Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - In-BoXBART: Get Instructions into Biomedical Multi-Task Learning [18.3293060030174]
シングルタスクモデルは特定のタスクの解決において重要な役割を担っているが、現実のアプリケーションには制限がある。
バイオメディカルNLPのための32の命令タスクの集合であるBoXを紹介する。
タスク固有のモジュールを使わずにBoXの全タスクを共同で学習できるIn-BoXBARTという統一モデルを提案する。
論文 参考訳(メタデータ) (2022-04-15T18:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。