論文の概要: FActBench: A Benchmark for Fine-grained Automatic Evaluation of LLM-Generated Text in the Medical Domain
- arxiv url: http://arxiv.org/abs/2509.02198v1
- Date: Tue, 02 Sep 2025 11:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.007339
- Title: FActBench: A Benchmark for Fine-grained Automatic Evaluation of LLM-Generated Text in the Medical Domain
- Title(参考訳): FActBench:医学領域におけるLCM生成テキストのきめ細かい自動評価のためのベンチマーク
- Authors: Anum Afzal, Juraj Vladika, Florian Matthes,
- Abstract要約: 医療領域のための4つの世代タスクと6つの最先端の大規模言語モデル(LLM)をカバーするベンチマークFActBenchを提供する。
我々は2つの最先端Fact-checking技術、すなわちChain-of-Thought (CoT) PromptingとNatural Language Inference (NLI)を使っている。
実験の結果,両テクニックの共通投票によって得られた事実チェックスコアは,ドメインエキスパート評価と相関することがわかった。
- 参考スコア(独自算出の注目度): 23.839541067589096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models tend to struggle when dealing with specialized domains. While all aspects of evaluation hold importance, factuality is the most critical one. Similarly, reliable fact-checking tools and data sources are essential for hallucination mitigation. We address these issues by providing a comprehensive Fact-checking Benchmark FActBench covering four generation tasks and six state-of-the-art Large Language Models (LLMs) for the Medical domain. We use two state-of-the-art Fact-checking techniques: Chain-of-Thought (CoT) Prompting and Natural Language Inference (NLI). Our experiments show that the fact-checking scores acquired through the Unanimous Voting of both techniques correlate best with Domain Expert Evaluation.
- Abstract(参考訳): 大規模言語モデルは、専門ドメインを扱う際に苦労する傾向がある。
評価のあらゆる側面が重要である一方で、事実性が最も重要である。
同様に、幻覚の緩和には信頼できる事実チェックツールやデータソースが不可欠である。
医療領域向けに4つの世代タスクと6つの最先端の大規模言語モデル(LLM)を網羅した総合的なFact-checking Benchmark FActBenchを提供することにより、これらの課題に対処する。
我々は、最先端のFact-checking技術として、Chain-of-Thought(CoT) Prompting(リンク)とNatural Language Inference(リンク)(NLI)の2つを使用している。
実験の結果,両テクニックの共通投票によって得られた事実チェックスコアは,ドメインエキスパート評価と相関することがわかった。
関連論文リスト
- When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [1.0138329337410974]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。
本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文 参考訳(メタデータ) (2025-08-05T19:20:05Z) - FactEHR: A Dataset for Evaluating Factuality in Clinical Notes Using LLMs [3.919419934122265]
FactEHRは,3つの病院システムから4つの病院システムにまたがる2,168件の臨床記録の文書的事実分解からなるNLIデータセットである。
我々は, LLMの細部評価から定性解析まで, 異なる軸上の生成事実を評価する。
その結果、臨床テキストの事実検証を支援するため、LCM機能の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-12-17T00:07:05Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。