Fugu-MT 論文翻訳(概要): NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation

論文の概要: NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2312.11361v1
Date: Mon, 18 Dec 2023 17:18:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 19:21:02.798877
Title: NoMIRACL: Knowing When You Don't Know for Robust Multilingual Retrieval-Augmented Generation
Title（参考訳）: nomiracl: 頑健な多言語検索型世代を知らない時を知る
Authors: Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi Rezagholizadeh, Jimmy Lin
Abstract要約: Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
参考スコア（独自算出の注目度）: 92.5132418788568
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Retrieval-augmented generation (RAG) grounds large language model (LLM) output by leveraging external knowledge sources to reduce factual hallucinations. However, prior works lack a comprehensive evaluation of different language families, making it challenging to evaluate LLM robustness against errors in external retrieved knowledge. To overcome this, we establish NoMIRACL, a human-annotated dataset for evaluating LLM robustness in RAG across 18 typologically diverse languages. NoMIRACL includes both a non-relevant and a relevant subset. Queries in the non-relevant subset contain passages manually judged as non-relevant or noisy, whereas queries in the relevant subset include at least a single judged relevant passage. We measure LLM robustness using two metrics: (i) hallucination rate, measuring model tendency to hallucinate an answer, when the answer is not present in passages in the non-relevant subset, and (ii) error rate, measuring model inaccuracy to recognize relevant passages in the relevant subset. We build a GPT-4 baseline which achieves a 33.2% hallucination rate on the non-relevant and a 14.9% error rate on the relevant subset on average. Our evaluation reveals that GPT-4 hallucinates frequently in high-resource languages, such as French or English. This work highlights an important avenue for future research to improve LLM robustness to learn how to better reject non-relevant information in RAG.
Abstract（参考訳）: Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。しかし、先行研究は異なる言語ファミリーの包括的評価を欠いているため、外部検索された知識におけるエラーに対するllmの堅牢性の評価が困難である。この問題を解決するために,18言語にまたがるRAGにおけるLDMロバスト性を評価するための人間アノテーション付きデータセットであるNoMIRACLを構築した。 NoMIRACLは非関連サブセットと関連するサブセットの両方を含んでいる。非関連部分集合のクエリは、手動で非関連またはノイズと判断される文を含むが、関連する部分集合のクエリは、少なくとも1つの関連する節を含む。 2つの指標を用いてLCMのロバスト性を測定する。 (i)幻覚率、非関連部分集合の通路に回答が存在しない場合、回答を幻覚する傾向の測定モデル、及び (二)誤差率、関係部分集合内の関連通路を認識するためのモデル不正確さの測定。我々はGPT-4ベースラインを構築し、関連するサブセットの平均で33.2%の幻覚率と14.9%のエラー率を達成する。評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。本研究は,RAGの非関連情報をよりよく拒否する方法を学ぶために,LCMの堅牢性を改善するための今後の研究の道のりを浮き彫りにしている。

関連論文リスト

Cleanse: Uncertainty Estimation Approach Using Clustering-based Semantic Consistency in LLMs [5.161416961439468]
本研究では,textbfClusttextbfering に基づくsemtextbfantic contextbfsisttextbfency (textbfCleanse) を用いた効果的な不確実性推定手法を提案する。 LLaMA-7B, LLaMA-13B, LLaMA2-7B, Mistral-7Bの4つの市販モデルを用いて, 幻覚検出におけるクリーンスの有効性を検証した。
論文参考訳（メタデータ） (2025-07-19T14:48:24Z)
Seeing What's Not There: Spurious Correlation in Multimodal LLMs [47.651861502104715]
我々は,人間の監督なしに刺激的な視覚的手がかりを自動的に識別するパイプラインであるSpurLensを紹介した。 MLLM(Multimodal Large Language Models)において,スプリアス相関が2つの大きな障害モードを引き起こすことが明らかとなった。相関関係の持続性を明らかにすることにより,MLLMの信頼性を高めるため,より厳密な評価手法と緩和戦略が求められた。
論文参考訳（メタデータ） (2025-03-11T20:53:00Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Addressing Hallucinations with RAG and NMISS in Italian Healthcare LLM Chatbots [0.0]
大規模言語モデル(LLM)の幻覚に対する検出と緩和を併用する NMISS(Negative Missing Information Scoring System)を導入して検出を行う間、質問応答型検索拡張生成(RAG)フレームワークで緩和を実現する。この組み合わせアプローチは、LLMにおける幻覚の低減とより正確な評価に関する新たな洞察を提供する。
論文参考訳（メタデータ） (2024-12-05T15:11:12Z)
THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。 THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文参考訳（メタデータ） (2024-09-17T16:55:25Z)
Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。私たちの評価は幻覚を構成するものに関して微妙な点を呈する。既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文参考訳（メタデータ） (2024-06-05T17:49:47Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Detecting Hallucination and Coverage Errors in Retrieval Augmented Generation for Controversial Topics [16.874364446070967]
我々は,ウィキペディアのニュートラル・ポイント・オブ・ビュー(NPOV)の原則に基づいて,LLMベースのチャットボットで議論を呼んでいるトピックを扱うための戦略を探る。決定論的検索システムを用いて、本手法のテキスト生成中に発生する一般的なLCM障害モード、すなわち幻覚とカバレッジエラーに焦点を当てる。本手法は, 幻覚 (84.0%) とカバレッジエラー (85.2%) の検出において, 良好な結果が得られた。
論文参考訳（メタデータ） (2024-03-13T18:47:00Z)
Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T11:55:40Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。 RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文参考訳（メタデータ） (2023-09-04T08:28:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。