論文の概要: FActBench: A Benchmark for Fine-grained Automatic Evaluation of LLM-Generated Text in the Medical Domain
- arxiv url: http://arxiv.org/abs/2509.02198v1
- Date: Tue, 02 Sep 2025 11:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.007339
- Title: FActBench: A Benchmark for Fine-grained Automatic Evaluation of LLM-Generated Text in the Medical Domain
- Title(参考訳): FActBench:医学領域におけるLCM生成テキストのきめ細かい自動評価のためのベンチマーク
- Authors: Anum Afzal, Juraj Vladika, Florian Matthes,
- Abstract要約: 医療領域のための4つの世代タスクと6つの最先端の大規模言語モデル(LLM)をカバーするベンチマークFActBenchを提供する。
我々は2つの最先端Fact-checking技術、すなわちChain-of-Thought (CoT) PromptingとNatural Language Inference (NLI)を使っている。
実験の結果,両テクニックの共通投票によって得られた事実チェックスコアは,ドメインエキスパート評価と相関することがわかった。
- 参考スコア(独自算出の注目度): 23.839541067589096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models tend to struggle when dealing with specialized domains. While all aspects of evaluation hold importance, factuality is the most critical one. Similarly, reliable fact-checking tools and data sources are essential for hallucination mitigation. We address these issues by providing a comprehensive Fact-checking Benchmark FActBench covering four generation tasks and six state-of-the-art Large Language Models (LLMs) for the Medical domain. We use two state-of-the-art Fact-checking techniques: Chain-of-Thought (CoT) Prompting and Natural Language Inference (NLI). Our experiments show that the fact-checking scores acquired through the Unanimous Voting of both techniques correlate best with Domain Expert Evaluation.
- Abstract(参考訳): 大規模言語モデルは、専門ドメインを扱う際に苦労する傾向がある。
評価のあらゆる側面が重要である一方で、事実性が最も重要である。
同様に、幻覚の緩和には信頼できる事実チェックツールやデータソースが不可欠である。
医療領域向けに4つの世代タスクと6つの最先端の大規模言語モデル(LLM)を網羅した総合的なFact-checking Benchmark FActBenchを提供することにより、これらの課題に対処する。
我々は、最先端のFact-checking技術として、Chain-of-Thought(CoT) Prompting(リンク)とNatural Language Inference(リンク)(NLI)の2つを使用している。
実験の結果,両テクニックの共通投票によって得られた事実チェックスコアは,ドメインエキスパート評価と相関することがわかった。
関連論文リスト
- AlignCheck: a Semantic Open-Domain Metric for Factual Consistency Assessment [0.0]
ドメイン内およびオープンドメインテキストの事実整合性評価のための解釈可能なフレームワークを提案する。
提案手法では,テキストをアトミックな事実に分解し,フレキシブルでスキーマフリーな手法を導入する。
一般的な一般的なデータセットと臨床データセットにアプローチをベンチマークし、事実認識モデルトレーニングをサポートするためにコードをリリースします。
論文 参考訳(メタデータ) (2025-12-03T10:14:31Z) - BioCoref: Benchmarking Biomedical Coreference Resolution with LLMs [2.770730728142587]
バイオメディカルテキストにおけるコア参照解決のための生成型大規模言語モデル (LLM) の総合評価について述べる。
我々は,これらの手法をSpanBERTという差別的スパンベースのエンコーダと比較し,生成的手法と識別的手法の有効性を比較した。
特に、LLaMA 8Bと17Bモデルは、エンティティ拡張プロンプトの下での精度とF1スコアが優れている。
論文 参考訳(メタデータ) (2025-10-29T01:51:00Z) - MedFact: Benchmarking the Fact-Checking Capabilities of Large Language Models on Chinese Medical Texts [4.809421212365958]
中国の医療ファクトチェックのための新しいベンチマークであるMedFactを紹介する。
さまざまな現実世界のテキストからキュレートされた2,116のエキスパートアノテーション付きインスタンスで構成されている。
専門家のフィードバックによってAI駆動のマルチ基準フィルタリングプロセスが洗練される、ハイブリッドAI-ヒューマンフレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-15T20:46:21Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [1.0138329337410974]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。
本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文 参考訳(メタデータ) (2025-08-05T19:20:05Z) - MedScore: Generalizable Factuality Evaluation of Free-Form Medical Answers by Domain-adapted Claim Decomposition and Verification [51.82420076479152]
MedScoreは、医学的回答を条件対応の有効な事実に分解し、ドメイン内コーパスに対する検証を行うための新しいパイプラインである。
提案手法は,既存の方法に比べて最大3倍有効な事実を抽出し,幻覚や曖昧な参照を低減し,事実の条件依存性を維持する。
論文 参考訳(メタデータ) (2025-05-24T01:23:09Z) - Long-Form Information Alignment Evaluation Beyond Atomic Facts [60.25969380388974]
明示的な幻覚を導入することなく、真理のステートメントを"モンテージ"することで、偽りの物語を構築するベンチマークであるMontageLieを紹介します。
本稿では,事実の正確性とイベント順序の整合性を共同で検証する新しいフレームワークであるDoveScoreを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:46:38Z) - FactEHR: A Dataset for Evaluating Factuality in Clinical Notes Using LLMs [3.919419934122265]
FactEHRは,3つの病院システムから4つの病院システムにまたがる2,168件の臨床記録の文書的事実分解からなるNLIデータセットである。
我々は, LLMの細部評価から定性解析まで, 異なる軸上の生成事実を評価する。
その結果、臨床テキストの事実検証を支援するため、LCM機能の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-12-17T00:07:05Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。