Fugu-MT 論文翻訳(概要): Med-HALT: Medical Domain Hallucination Test for Large Language Models

論文の概要: Med-HALT: Medical Domain Hallucination Test for Large Language Models

arxiv url: http://arxiv.org/abs/2307.15343v2
Date: Sat, 14 Oct 2023 17:04:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 22:56:00.344024
Title: Med-HALT: Medical Domain Hallucination Test for Large Language Models
Title（参考訳）: Med-HALT:大規模言語モデルのための医学領域幻覚テスト
Authors: Ankit Pal, Logesh Kumar Umapathi and Malaikannan Sankarasubbu
Abstract要約: 本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This research paper focuses on the challenges posed by hallucinations in large language models (LLMs), particularly in the context of the medical domain. Hallucination, wherein these models generate plausible yet unverified or incorrect information, can have serious consequences in healthcare applications. We propose a new benchmark and dataset, Med-HALT (Medical Domain Hallucination Test), designed specifically to evaluate and reduce hallucinations. Med-HALT provides a diverse multinational dataset derived from medical examinations across various countries and includes multiple innovative testing modalities. Med-HALT includes two categories of tests reasoning and memory-based hallucination tests, designed to assess LLMs's problem-solving and information retrieval abilities. Our study evaluated leading LLMs, including Text Davinci, GPT-3.5, LlaMa-2, MPT, and Falcon, revealing significant differences in their performance. The paper provides detailed insights into the dataset, promoting transparency and reproducibility. Through this work, we aim to contribute to the development of safer and more reliable language models in healthcare. Our benchmark can be found at medhalt.github.io
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)における幻覚による課題,特に医学領域における課題に焦点を当てた。幻覚(hallucination)は、これらのモデルが妥当で検証されていない、あるいは誤った情報を生成する場合に、医療アプリケーションにおいて深刻な結果をもたらす可能性がある。我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。 Med-HALTは、様々な国の医学検査から派生した多様な多国籍データセットを提供し、複数の革新的な試験モダリティを含んでいる。 Med-HALTには、LSMの問題解決能力と情報検索能力を評価するために設計された、メモリベースの幻覚テストと2つのカテゴリがある。本研究は,Text Davinci, GPT-3.5, LlaMa-2, MPT, Falconなどの主要なLCMについて検討した。論文はデータセットに関する詳細な洞察を提供し、透明性と再現性を促進する。本研究は,医療における安全で信頼性の高い言語モデルの開発に貢献することを目的としている。ベンチマークは medhalt.github.io で確認できます。

関連論文リスト

A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文参考訳（メタデータ） (2025-07-25T07:22:42Z)
Hallucination-Aware Multimodal Benchmark for Gastrointestinal Image Analysis with Large Vision-Language Models [5.545334160894197]
VLM(Vision-Language Models)は、医療領域において、医療画像と臨床言語とのギャップを埋めることによって、ますます人気が高まっている。しかしながら、幻覚(幻覚)-視覚内容と矛盾する記述を生成する傾向-は、VLMにおいて重要な問題である。 VLMによる消化管画像解析と幻覚の研究を容易にするため,マルチモーダル画像テキストGIデータセットをキュレートする。このデータセットは2段階のパイプラインを使用して作成される。まず、Kvasir-v2画像の詳細な医療報告はChatGPTを使用して生成される。
論文参考訳（メタデータ） (2025-05-11T14:54:11Z)
MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks [7.822971505079421]
本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
論文参考訳（メタデータ） (2025-05-06T11:07:26Z)
MedHal: An Evaluation Dataset for Medical Hallucination Detection [2.5782420501870296]
MedHalは、医療用テキストの幻覚をモデルが検出できるかどうかを評価するために設計された、新しい大規模データセットである。 MedHalは,(1)多様な医学的テキストソースとタスクを取り入れ,(2)医学的幻覚検出モデルの訓練に適した注釈付きサンプルを大量に提供し,(3)モデル学習を導くための事実的不整合の説明を含むギャップに対処する。
論文参考訳（メタデータ） (2025-04-11T14:55:15Z)
MedHallTune: An Instruction-Tuning Benchmark for Mitigating Medical Hallucination in Vision-Language Models [81.64135119165277]
幻覚は臨床的意思決定を阻害し、診断や治療を害する可能性がある。本稿では,医療用VLMにおける幻覚の評価と緩和を目的とした大規模ベンチマークであるMedHallTuneを提案する。我々は、MedHallTuneを用いて、現在の医用および一般のVLMの総合的な評価を行い、臨床精度、関連性、ディテールレベル、リスクレベルなど、主要な指標でそれらの性能を評価する。
論文参考訳（メタデータ） (2025-02-28T06:59:49Z)
Medical Hallucinations in Foundation Models and Their Impact on Healthcare [53.97060824532454]
マルチモーダルデータの処理と生成が可能なファンデーションモデルは、医療におけるAIの役割を変革した。医療幻覚を、モデルが誤解を招く医療内容を生成する場合の例と定義する。以上の結果から,Chain-of-Thought (CoT) や Search Augmented Generation などの推論手法は,幻覚率を効果的に低減できることがわかった。これらの知見は、ロバストな検出と緩和戦略のための倫理的かつ実践的な衝動を浮き彫りにした。
論文参考訳（メタデータ） (2025-02-26T02:30:44Z)
MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models [82.30696225661615]
MedHalluは、医学的幻覚検出に特化して設計された最初のベンチマークである。 GPT-4o, Llama-3.1, および医学的に微調整されたUltraMedicalを含む最先端のLSMは、このバイナリ幻覚検出タスクに苦慮している。双方向の包絡クラスタリングを用いて, 難解な幻覚は, 意味論的に真実に近いことを示す。
論文参考訳（メタデータ） (2025-02-20T06:33:23Z)
From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization [6.37435726278524]
複数の文書からトピック特化情報を要約する際に,大規模言語モデル (LLM) において幻覚がどのように現れるかを検討する。平均して、LLM生成サマリーの最大75%は幻覚化され、要約の終わりに幻覚が生じる可能性が高い。これらの幻覚の特徴を理解するために、手動で700以上の洞察を評価し、ほとんどのエラーは指示に従わなかったり、過度に総合的な洞察が得られなかったりする。
論文参考訳（メタデータ） (2024-10-17T18:38:53Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文参考訳（メタデータ） (2024-07-03T00:59:03Z)
Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。 LVLMは幻覚への感受性を継承する。幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文参考訳（メタデータ） (2024-06-14T17:14:22Z)
MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文参考訳（メタデータ） (2024-06-05T04:15:07Z)
Gemini Goes to Med School: Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems & Hallucinations [0.0]
我々はオープンソースとGoogleの新しいマルチモーダルLLMであるGeminiを総合的に評価した。 Geminiは能力を示したが、診断精度はMedPaLM 2やGPT-4のような最先端のモデルに遅れを取っていた。ジェミニは幻覚、過信、知識のギャップに非常に敏感であり、不クリティカルに展開された場合のリスクを示す。
論文参考訳（メタデータ） (2024-02-10T19:08:28Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文参考訳（メタデータ） (2023-12-12T04:05:15Z)
HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。 LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文参考訳（メタデータ） (2023-11-22T04:52:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。