Fugu-MT 論文翻訳(概要): RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots

論文の概要: RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots

arxiv url: http://arxiv.org/abs/2403.01193v2
Date: Wed, 13 Mar 2024 21:57:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 01:22:49.400491
Title: RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots
Title（参考訳）: RAGged Edges: 検索可能なチャットボットのダブルエッジソード
Authors: Philip Feldman. James R. Foulds, Shimei Pan,
Abstract要約: ChatGPTの幻覚(もっともらしいが偽の情報を生み出す)は大きな課題となる。本稿では、外部知識をプロンプトと統合することにより、検索・拡張生成が幻覚にどのように対処できるかを考察する。以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。
参考スコア（独自算出の注目度）: 5.174023161939957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) like ChatGPT demonstrate the remarkable progress of artificial intelligence. However, their tendency to hallucinate -- generate plausible but false information -- poses a significant challenge. This issue is critical, as seen in recent court cases where ChatGPT's use led to citations of non-existent legal rulings. This paper explores how Retrieval-Augmented Generation (RAG) can counter hallucinations by integrating external knowledge with prompts. We empirically evaluate RAG against standard LLMs using prompts designed to induce hallucinations. Our results show that RAG increases accuracy in some cases, but can still be misled when prompts directly contradict the model's pre-trained understanding. These findings highlight the complex nature of hallucinations and the need for more robust solutions to ensure LLM reliability in real-world applications. We offer practical recommendations for RAG deployment and discuss implications for the development of more trustworthy LLMs.
Abstract（参考訳）: ChatGPTのような大規模言語モデル(LLM)は、人工知能の顕著な進歩を示している。しかし、幻覚の傾向 ― もっともらしいが偽の情報を生み出す ― は重要な課題である。この問題は、ChatGPTの使用が存在しない法的判決の引用に繋がった最近の裁判で見られるように、批判的である。本稿では、外部知識とプロンプトを統合することで、RAG(Retrieval-Augmented Generation)が幻覚に対してどのように対処できるかを考察する。幻覚を誘発するプロンプトを用いて,標準LLMに対するRAGを実験的に評価した。以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。これらの知見は、幻覚の複雑な性質と、現実のアプリケーションにおいてLLMの信頼性を確保するためのより堅牢なソリューションの必要性を浮き彫りにしている。我々は、RAGデプロイメントの実践的な推奨と、より信頼性の高いLCMの開発における影響について論じる。

関連論文リスト

Toward Faithful Retrieval-Augmented Generation with Sparse Autoencoders [39.5490415037017]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)の事実性を改善する。既存のRAGの幻覚検出法は、しばしば大規模な検出器の訓練に頼っている。 RAGLensは、RAG出力を正確にフラグする軽量幻覚検出器である。
論文参考訳（メタデータ） (2025-12-09T18:33:22Z)
SECA: Semantically Equivalent and Coherent Attacks for Eliciting LLM Hallucinations [47.0190003379175]
大規模言語モデル(LLM)は、リスクの高いドメインにますますデプロイされる。 LLMはしばしば幻覚を発生させ、その信頼性について深刻な懸念を提起する。本稿では,幻覚を誘発するためのセマンティック・等価・コヒーレント・アタック(SECA)を提案する。
論文参考訳（メタデータ） (2025-10-05T23:44:54Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
Beyond Facts: Evaluating Intent Hallucination in Large Language Models [13.315302240710164]
FAITHQAは20,068問題を含む意図幻覚の新しいベンチマークである。我々は、最先端のモデルにおいても意図幻覚は一般的な問題であると考えている。意図の幻覚を検出するための自動LLM生成評価指標であるCONSTRAINT SCOREを導入する。
論文参考訳（メタデータ） (2025-06-06T21:10:55Z)
Removal of Hallucination on Hallucination: Debate-Augmented RAG [10.501398822864363]
Debate-Augmented RAG (DRAG) は、Multi-Agent Debate (MAD) メカニズムを検索と生成の両方の段階に統合する、トレーニング不要のフレームワークである。検索においてDRAGは、提案者、反対者、裁判官の間で構造化された議論を採用し、検索品質を洗練させ、事実の信頼性を確保する。 DRAGは、非対称な情報の役割と敵の議論を導入し、推論の堅牢性を高め、事実の矛盾を緩和する。
論文参考訳（メタデータ） (2025-05-24T08:15:22Z)
Benchmarking LLM Faithfulness in RAG with Evolving Leaderboards [35.25220876573924]
Retrieval-augmented Generation (RAG) は、外的文脈での応答を基礎にして幻覚を減らすことを目的としている。 LLMは、関連するコンテキストが提供されても、サポートされていない情報や矛盾を頻繁に導入する。本稿では,Vectara における LLM 忠実度の測定と評価のための2つの補完的取り組みについて述べる。
論文参考訳（メタデータ） (2025-05-07T22:50:33Z)
Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models [0.0]
大規模言語モデル(LLM)における幻覚は、現実世界のアプリケーションにまたがる課題が増えていることを示している。幻覚を系統的に引き起こし定量化するプロンプトベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-01T14:33:47Z)
HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
Don't Let It Hallucinate: Premise Verification via Retrieval-Augmented Logical Reasoning [19.30729301157088]
生成前の偽の前提を特定し,対処する検索ベースのフレームワークを提案する。実験によると、このアプローチは幻覚を効果的に減らし、事実の精度を向上し、モデルロジットへのアクセスや大規模微調整を必要としない。
論文参考訳（メタデータ） (2025-04-08T21:14:48Z)
The Illusionist's Prompt: Exposing the Factual Vulnerabilities of Large Language Models with Linguistic Nuances [23.908718176644634]
大規模言語モデル(LLM)は、専門家でないユーザによるリアルタイム情報ソースとしてますます頼りになってきている。 The Illusionist's Promptは,言語的ニュアンスを敵対的クエリに組み込んだ,新たな幻覚攻撃である。我々の攻撃は、ユーザーの意図や意味を保ちながら、内部の事実的誤りを誘発する高度に伝達可能なイラストルプロンプトを自動生成する。
論文参考訳（メタデータ） (2025-04-01T07:10:00Z)
DecoPrompt : Decoding Prompts Reduces Hallucinations when Large Language Models Meet False Premises [28.72485319617863]
幻覚を緩和する新しいプロンプトアルゴリズムDecoPromptを提案する。 DecoPrompt は LLM を利用して偽前提のプロンプトを "デコード" する。 2つのデータセットで実験を行い、DecoPromptは異なるLLMから出力された幻覚を効果的に低減できることを示した。
論文参考訳（メタデータ） (2024-11-12T00:48:01Z)
Mitigating Entity-Level Hallucination in Large Language Models [11.872916697604278]
本稿では,大規模言語モデル(LLM)における幻覚の検出・緩和手法として,幻覚検出(DRAD)に基づく動的検索拡張を提案する。実験の結果,LDMにおける幻覚の検出と緩和の両面において,DRADは優れた性能を示した。
論文参考訳（メタデータ） (2024-07-12T16:47:34Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
Retrieve Only When It Needs: Adaptive Retrieval Augmentation for Hallucination Mitigation in Large Language Models [68.91592125175787]
幻覚は、大規模言語モデル(LLM)の実践的実装において重要な課題となる。本稿では,幻覚に対処するための選択的検索拡張プロセスにより,Lowenを改良する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-02-16T11:55:40Z)
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文参考訳（メタデータ） (2023-12-31T04:43:45Z)
Alleviating Hallucinations of Large Language Models through Induced Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文参考訳（メタデータ） (2023-12-25T12:32:49Z)
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。 LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文参考訳（メタデータ） (2023-11-09T09:25:37Z)
Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。これらの幻覚は、従来の方法による検出が困難である。 LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文参考訳（メタデータ） (2023-10-30T08:40:16Z)
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。 LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文参考訳（メタデータ） (2023-09-03T16:56:48Z)
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文参考訳（メタデータ） (2023-05-19T15:36:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。