論文の概要: RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots
- arxiv url: http://arxiv.org/abs/2403.01193v2
- Date: Wed, 13 Mar 2024 21:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:22:49.400491
- Title: RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots
- Title(参考訳): RAGged Edges: 検索可能なチャットボットのダブルエッジソード
- Authors: Philip Feldman. James R. Foulds, Shimei Pan,
- Abstract要約: ChatGPTの幻覚(もっともらしいが偽の情報を生み出す)は大きな課題となる。
本稿では、外部知識をプロンプトと統合することにより、検索・拡張生成が幻覚にどのように対処できるかを考察する。
以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。
- 参考スコア(独自算出の注目度): 5.174023161939957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) like ChatGPT demonstrate the remarkable progress of artificial intelligence. However, their tendency to hallucinate -- generate plausible but false information -- poses a significant challenge. This issue is critical, as seen in recent court cases where ChatGPT's use led to citations of non-existent legal rulings. This paper explores how Retrieval-Augmented Generation (RAG) can counter hallucinations by integrating external knowledge with prompts. We empirically evaluate RAG against standard LLMs using prompts designed to induce hallucinations. Our results show that RAG increases accuracy in some cases, but can still be misled when prompts directly contradict the model's pre-trained understanding. These findings highlight the complex nature of hallucinations and the need for more robust solutions to ensure LLM reliability in real-world applications. We offer practical recommendations for RAG deployment and discuss implications for the development of more trustworthy LLMs.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、人工知能の顕著な進歩を示している。
しかし、幻覚の傾向 ― もっともらしいが偽の情報を生み出す ― は重要な課題である。
この問題は、ChatGPTの使用が存在しない法的判決の引用に繋がった最近の裁判で見られるように、批判的である。
本稿では、外部知識とプロンプトを統合することで、RAG(Retrieval-Augmented Generation)が幻覚に対してどのように対処できるかを考察する。
幻覚を誘発するプロンプトを用いて,標準LLMに対するRAGを実験的に評価した。
以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。
これらの知見は、幻覚の複雑な性質と、現実のアプリケーションにおいてLLMの信頼性を確保するためのより堅牢なソリューションの必要性を浮き彫りにしている。
我々は、RAGデプロイメントの実践的な推奨と、より信頼性の高いLCMの開発における影響について論じる。
関連論文リスト
- Unfamiliar Finetuning Examples Control How Language Models Hallucinate [80.497886066705]
大規模言語モデル(LLM)は、可聴性に富むが、実際には正しくない応答を生成する傾向にある。
我々は,長期化タスクに対する幻覚をより確実に緩和するRLアプローチを開発した。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、大きな言語モデルの信頼性に挑戦する。
HaluEval-Wildは、幻覚を評価するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2024-03-07T08:25:46Z) - Retrieve Only When It Needs: Adaptive Retrieval Augmentation for
Hallucination Mitigation in Large Language Models [73.93616728895401]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。
本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T11:55:40Z) - Prompt Perturbation in Retrieval-Augmented Generation based Large
Language Models [10.424810354812937]
Retrieval-Augmented Generationは、大規模言語モデルからテキスト生成の信頼性を向上させる手段として考えられている。
本研究では,プロンプトに短い接頭辞を挿入しても,実際の正解から遠く離れたアウトプットを生成することを発見した。
グラディエントガイドプロンプト摂動法(Gradient Guided Prompt Perturbation)と呼ばれる新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2024-02-11T12:25:41Z) - Hallucination Detection and Hallucination Mitigation: An Investigation [13.941799495842776]
大規模言語モデル(LLM)は、過去2年間に様々なアプリケーションで顕著な成功を収めてきた。
本報告は,幻覚検出と幻覚軽減の両面において,現在の文献を包括的にレビューすることを目的としている。
論文 参考訳(メタデータ) (2024-01-16T13:36:07Z) - RAGTruth: A Hallucination Corpus for Developing Trustworthy
Retrieval-Augmented Language Models [9.821721282422603]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。
本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文 参考訳(メタデータ) (2023-12-31T04:43:45Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - A Survey on Hallucination in Large Language Models: Principles,
Taxonomy, Challenges, and Open Questions [42.007305423982515]
大型言語モデル(LLM)は幻覚を生じさせ、現実の事実やユーザ入力と矛盾する内容をもたらす。
本調査は, LLM幻覚の分野での最近の進歩について, 徹底的, 徹底的に概観することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T09:25:37Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。