Fugu-MT 論文翻訳(概要): Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

論文の概要: Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

arxiv url: http://arxiv.org/abs/2505.14599v1
Date: Tue, 20 May 2025 16:49:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.591871
Title: Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models
Title（参考訳）: 信頼性の高いバイオメディカル仮説生成に向けて:大規模言語モデルにおける真理性と幻覚の評価
Authors: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang,
Abstract要約: TruthHypoは,真理仮説を生成する上で,大規模言語モデルの能力を評価するためのベンチマークである。 KnowHDは知識に基づく幻覚検出装置で、既存の知識に基づいて仮説がどれだけうまく構築されているかを評価する。
参考スコア（独自算出の注目度）: 18.850296587858946
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown significant potential in scientific disciplines such as biomedicine, particularly in hypothesis generation, where they can analyze vast literature, identify patterns, and suggest research directions. However, a key challenge lies in evaluating the truthfulness of generated hypotheses, as verifying their accuracy often requires substantial time and resources. Additionally, the hallucination problem in LLMs can lead to the generation of hypotheses that appear plausible but are ultimately incorrect, undermining their reliability. To facilitate the systematic study of these challenges, we introduce TruthHypo, a benchmark for assessing the capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD, a knowledge-based hallucination detector to evaluate how well hypotheses are grounded in existing knowledge. Our results show that LLMs struggle to generate truthful hypotheses. By analyzing hallucinations in reasoning steps, we demonstrate that the groundedness scores provided by KnowHD serve as an effective metric for filtering truthful hypotheses from the diverse outputs of LLMs. Human evaluations further validate the utility of KnowHD in identifying truthful hypotheses and accelerating scientific discovery. Our data and source code are available at https://github.com/Teddy-XiongGZ/TruthHypo.
Abstract（参考訳）: 大規模言語モデル(LLM)は、バイオメディシンのような科学分野、特に仮説生成において大きな可能性を示しており、膨大な文献を分析し、パターンを特定し、研究の方向性を提案することができる。しかし、重要な課題は生成した仮説の真偽を評価することである。加えて、LLMの幻覚問題は、プラプシブルに見えるが最終的に誤りである仮説の生成を招き、その信頼性を損なう可能性がある。これらの課題の体系的な研究を容易にするために,本研究では,実生医学的仮説の生成におけるLCMの能力を評価するためのベンチマークであるTruthHypoと,既存の知識にどの程度の仮説が根ざされているかを評価する知識ベース幻覚検出装置であるKnowHDを紹介する。以上の結果から,LLMは真理仮説の創出に苦慮していることが明らかとなった。推論段階における幻覚を解析することにより、LLMの多様な出力から真理仮説をフィルタリングする有効な指標として、KnowHDが提供する基底性スコアが有効であることを示す。人間の評価は、真理仮説を特定し、科学的発見を加速するKnowHDの有用性をさらに検証する。私たちのデータとソースコードはhttps://github.com/Teddy-XiongGZ/TruthHypo.comで公開されています。

関連論文リスト

HypoChainer: A Collaborative System Combining LLMs and Knowledge Graphs for Hypothesis-Driven Scientific Discovery [4.020865072189471]
人間の専門知識、知識グラフ、推論を統合した可視化フレームワークであるPhyChainerを提案する。 hypoChainerは3つの段階で機能する: 第一、探索、文脈化 -- 専門家は検索強化LLM(RAG)と次元縮小を使用する。第2に、仮説連鎖の形成 -- 専門家は予測と意味論的に関連付けられたエンティティに関するKG関係を反復的に検討する。第三に、検証の優先順位付け -- 洗練された仮説は、KGが支持する証拠に基づいてフィルタリングされ、実験のための優先度の高い候補を特定する。
論文参考訳（メタデータ） (2025-07-23T05:02:54Z)
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search [93.64235254640967]
大規模言語モデル (LLM) は科学的仮説生成の自動化において有望であることを示している。詳細な科学的仮説発見の新たな課題を定めている。本稿では,仮説に詳細を漸進的に提案・統合する階層探索手法を提案する。
論文参考訳（メタデータ） (2025-05-25T16:13:46Z)
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [20.648157071328807]
大規模言語モデル(LLM)は、既存の知識を分析することによって、新しい研究の方向性を特定することができる。 LLMは幻覚を発生させる傾向がある。我々は,知識グラフから外部構造的知識を統合することで,LLM仮説の生成を促進するシステムKG-CoIを提案する。
論文参考訳（メタデータ） (2024-11-04T18:50:00Z)
MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses [72.39144388083712]
大規模言語モデル(LLM)が化学において新規で有効な仮説を自律的に生成できるかどうかは不明である。我々は、2024年1月以降に発行され、オンライン化された51のハイインパクト化学論文のベンチマークを開発し、それぞれが背景、インスピレーション、仮説を手動で注釈付けした。 LLMは、人間によってまだ認識されていない、潜伏した科学的知識の関連をすでにコード化していると仮定する。
論文参考訳（メタデータ） (2024-10-09T17:19:58Z)
Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation [15.495976478018264]
大規模言語モデル(LLM)は、知識相互作用に革命をもたらす有望なツールとして登場した。バイオメディカル文献から背景と仮説のペアのデータセットを構築し、トレーニング、観察、および見えないテストセットに分割する。最上位モデルの仮説生成能力を、ゼロショット、少数ショット、微調整設定で評価する。
論文参考訳（メタデータ） (2024-07-12T02:55:13Z)
LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文参考訳（メタデータ） (2024-07-03T17:08:52Z)
LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文参考訳（メタデータ） (2024-05-16T03:04:10Z)
Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文参考訳（メタデータ） (2023-11-10T10:03:49Z)
Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences [3.9985385067438344]
強い仮説は、既存の証拠に基づく最良の推理であり、関連する文献の包括的な見解によって知らされる。毎年発行される科学論文の数が指数関数的に増加すると、ある仮説に関連する証拠の手作業による集約と合成は困難である。我々は,社会科学における研究のコミュニティ主導のアノテーションを用いた科学的仮説の課題のための新しいデータセットを共有する。
論文参考訳（メタデータ） (2023-09-07T04:15:17Z)
Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文参考訳（メタデータ） (2023-09-06T05:19:41Z)
SciMON: Scientific Inspiration Machines Optimized for Novelty [68.46036589035539]
文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。モデルが入力背景コンテキストとして使用される新しい設定で、劇的な出発をとっています。本稿では,過去の科学的論文から「吸入」を抽出するモデリングフレームワークであるSciMONを紹介する。
論文参考訳（メタデータ） (2023-05-23T17:12:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。