論文の概要: NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2312.11361v2
- Date: Mon, 4 Mar 2024 16:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:07:38.814333
- Title: NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation
- Title(参考訳): nomiracl: 頑健な多言語検索型世代を知らない時を知る
- Authors: Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan
Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi
Rezagholizadeh, Jimmy Lin
- Abstract要約: Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
- 参考スコア(独自算出の注目度): 92.5132418788568
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) grounds large language model (LLM)
output by leveraging external knowledge sources to reduce factual
hallucinations. However, prior works lack a comprehensive evaluation of
different language families, making it challenging to evaluate LLM robustness
against errors in external retrieved knowledge. To overcome this, we establish
NoMIRACL, a human-annotated dataset for evaluating LLM robustness in RAG across
18 typologically diverse languages. NoMIRACL includes both a non-relevant and a
relevant subset. Queries in the non-relevant subset contain passages judged as
non-relevant, whereas queries in the relevant subset include at least a single
judged relevant passage. We measure LLM robustness using two metrics: (i)
hallucination rate, measuring model tendency to hallucinate an answer, when the
answer is not present in passages in the non-relevant subset, and (ii) error
rate, measuring model inaccuracy to recognize relevant passages in the relevant
subset. In our work, we measure robustness for a wide variety of
multilingual-focused LLMs and observe that most of the models struggle to
balance the two capacities. Models such as LLAMA-2, Orca-2, and FLAN-T5 observe
more than an 88% hallucination rate on the non-relevant subset, whereas,
Mistral overall hallucinates less, but can achieve up to a 74.9% error rate on
the relevant subset. Overall, GPT-4 is observed to provide the best tradeoff on
both subsets, highlighting future work necessary to improve LLM robustness.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
しかし、先行研究は異なる言語ファミリーの包括的評価を欠いているため、外部検索された知識におけるエラーに対するllmの堅牢性の評価が困難である。
この問題を解決するために,18言語にまたがるRAGにおけるLDMロバスト性を評価するための人間アノテーション付きデータセットであるNoMIRACLを構築した。
NoMIRACLは非関連サブセットと関連するサブセットの両方を含んでいる。
非関連サブセットのクエリは、非関連サブセットであると判断されたパスを含むが、関連するサブセットのクエリは、少なくとも1つの判断された関連するパスを含む。
2つの指標を用いてLCMのロバスト性を測定する。
(i)幻覚率、非関連部分集合の通路に回答が存在しない場合、回答を幻覚する傾向の測定モデル、及び
(二)誤差率、関係部分集合内の関連通路を認識するためのモデル不正確さの測定。
本研究では,多言語対応LLMのロバスト性を測定し,ほとんどのモデルが2つの能力のバランスをとるのに苦労していることを観察する。
llama-2、orca-2、flan-t5のようなモデルは、非関連部分集合の幻覚率が88%以上であるのに対し、ミストラル全体の幻覚は少ないが、関連部分集合の誤差率は74.9%である。
全体として、GPT-4は両サブセットの最良のトレードオフを提供するのが観察され、LCMの堅牢性を改善するために必要な今後の作業が強調された。
関連論文リスト
- Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。
本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。
この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文 参考訳(メタデータ) (2024-05-30T03:00:47Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for
Hallucination Mitigation in Large Language Models [73.93616728895401]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。
私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。
また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。