Fugu-MT 論文翻訳(概要): Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots

論文の概要: Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots

arxiv url: http://arxiv.org/abs/2412.04235v1
Date: Thu, 05 Dec 2024 15:11:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:02.107077
Title: Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots
Title（参考訳）: イタリアのLLMチャットボットにおけるRAGとNMISSによる幻覚への取り組み
Authors: Maria Paola Priola,
Abstract要約: 大規模言語モデル(LLM)の幻覚に対する検出と緩和を併用する NMISS(Negative Missing Information Scoring System)を導入して検出を行う間、質問応答型検索拡張生成(RAG)フレームワークで緩和を実現する。この組み合わせアプローチは、LLMにおける幻覚の低減とより正確な評価に関する新たな洞察を提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: I combine detection and mitigation techniques to addresses hallucinations in Large Language Models (LLMs). Mitigation is achieved in a question-answering Retrieval-Augmented Generation (RAG) framework while detection is obtained by introducing the Negative Missing Information Scoring System (NMISS), which accounts for contextual relevance in responses. While RAG mitigates hallucinations by grounding answers in external data, NMISS refines the evaluation by identifying cases where traditional metrics incorrectly flag contextually accurate responses as hallucinations. I use Italian health news articles as context to evaluate LLM performance. Results show that Gemma2 and GPT-4 outperform the other models, with GPT-4 producing answers closely aligned with reference responses. Mid-tier models, such as Llama2, Llama3, and Mistral benefit significantly from NMISS, highlighting their ability to provide richer contextual information. This combined approach offers new insights into the reduction and more accurate assessment of hallucinations in LLMs, with applications in real-world healthcare tasks and other domains.
Abstract（参考訳）: 大規模言語モデル(LLM)における幻覚に対する検出と緩和の手法を組み合わせる。応答の文脈的関連性を考慮した負の欠落情報表示システム(NMISS)を導入して検出を行う間、質問応答型検索拡張生成(RAG)フレームワークで緩和を実現する。 RAGは、回答を外部データに根拠づけて幻覚を緩和するが、NMISSは、従来のメトリクスが文脈的に正確な応答を幻覚として正しくフラグ付けしているケースを特定することによって、評価を洗練させる。私はLDMのパフォーマンスを評価するために、イタリアの健康ニュース記事を文脈として使用します。その結果, Gemma2 と GPT-4 が他のモデルより優れており, GPT-4 は参照応答と密接に一致していることがわかった。 Llama2、Llama3、Mistralといった中層モデルはNMISSから大きな恩恵を受けており、よりリッチなコンテキスト情報を提供する能力を強調している。この組み合わせアプローチは、LLMにおける幻覚の低減とより正確な評価に関する新たな洞察を提供する。

関連論文リスト

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals [7.61196995380844]
Retrieval-Augmented Generation (RAG) は、検索した文書に応答を接地することで、大規模言語モデル(LLM)における幻覚を軽減することを目的としている。しかし、RAGベースのLLMは、正確で十分なコンテキストが提供されても、まだ幻覚的である。本稿では,RAGシステムにおける幻覚を検出する新しいフレームワークLUMINAを提案する。
論文参考訳（メタデータ） (2025-09-26T04:57:46Z)
HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文参考訳（メタデータ） (2025-02-12T04:17:02Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文参考訳（メタデータ） (2024-03-07T08:25:46Z)
Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T11:55:40Z)
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文参考訳（メタデータ） (2023-12-31T04:43:45Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)
Contrastive Learning Reduces Hallucination in Conversations [76.55116206021346]
そこで我々はMixCLという対照的な学習手法を提案する。 LMの暗黙的知識抽出過程を明示的に最適化するために、新しい混合コントラスト目的を提案する。我々は、MixCLが最先端KBベースのアプローチに匹敵する性能を実現することを示す。
論文参考訳（メタデータ） (2022-12-20T16:26:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。