論文の概要: NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2312.11361v1
- Date: Mon, 18 Dec 2023 17:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:21:02.798877
- Title: NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation
- Title(参考訳): nomiracl: 頑健な多言語検索型世代を知らない時を知る
- Authors: Nandan Thakur, Luiz Bonifacio, Xinyu Zhang, Odunayo Ogundepo, Ehsan
Kamalloo, David Alfonso-Hermelo, Xiaoguang Li, Qun Liu, Boxing Chen, Mehdi
Rezagholizadeh, Jimmy Lin
- Abstract要約: Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
- 参考スコア(独自算出の注目度): 92.5132418788568
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-augmented generation (RAG) grounds large language model (LLM)
output by leveraging external knowledge sources to reduce factual
hallucinations. However, prior works lack a comprehensive evaluation of
different language families, making it challenging to evaluate LLM robustness
against errors in external retrieved knowledge. To overcome this, we establish
NoMIRACL, a human-annotated dataset for evaluating LLM robustness in RAG across
18 typologically diverse languages. NoMIRACL includes both a non-relevant and a
relevant subset. Queries in the non-relevant subset contain passages manually
judged as non-relevant or noisy, whereas queries in the relevant subset include
at least a single judged relevant passage. We measure LLM robustness using two
metrics: (i) hallucination rate, measuring model tendency to hallucinate an
answer, when the answer is not present in passages in the non-relevant subset,
and (ii) error rate, measuring model inaccuracy to recognize relevant passages
in the relevant subset. We build a GPT-4 baseline which achieves a 33.2%
hallucination rate on the non-relevant and a 14.9% error rate on the relevant
subset on average. Our evaluation reveals that GPT-4 hallucinates frequently in
high-resource languages, such as French or English. This work highlights an
important avenue for future research to improve LLM robustness to learn how to
better reject non-relevant information in RAG.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
しかし、先行研究は異なる言語ファミリーの包括的評価を欠いているため、外部検索された知識におけるエラーに対するllmの堅牢性の評価が困難である。
この問題を解決するために,18言語にまたがるRAGにおけるLDMロバスト性を評価するための人間アノテーション付きデータセットであるNoMIRACLを構築した。
NoMIRACLは非関連サブセットと関連するサブセットの両方を含んでいる。
非関連部分集合のクエリは、手動で非関連またはノイズと判断される文を含むが、関連する部分集合のクエリは、少なくとも1つの関連する節を含む。
2つの指標を用いてLCMのロバスト性を測定する。
(i)幻覚率、非関連部分集合の通路に回答が存在しない場合、回答を幻覚する傾向の測定モデル、及び
(二)誤差率、関係部分集合内の関連通路を認識するためのモデル不正確さの測定。
我々はGPT-4ベースラインを構築し、関連するサブセットの平均で33.2%の幻覚率と14.9%のエラー率を達成する。
評価の結果,GPT-4はフランス語や英語などの高リソース言語で頻繁に幻覚を呈することがわかった。
本研究は,RAGの非関連情報をよりよく拒否する方法を学ぶために,LCMの堅牢性を改善するための今後の研究の道のりを浮き彫りにしている。
関連論文リスト
- Retrieve Only When It Needs: Adaptive Retrieval Augmentation for
Hallucination Mitigation in Large Language Models [73.93616728895401]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages,
Modalities, Models and Tasks [13.042411211765387]
本研究は,MEGAVERSEベンチマークを作成するための6つの新しいデータセットを含むことで,MEGAスイートを拡張することを目的としている。
ベンチマークは、低リソースのアフリカ言語を含む81言語をカバーする22のデータセットで構成されている。
我々は,MEGAVERSE データセット上で GPT-3.5-Turbo, GPT4, PaLM2, Llama2 などの最先端 LLM の評価を行った。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Multilingual Machine Translation with Large Language Models: Empirical
Results and Analysis [108.37242622164709]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。