論文の概要: Out of Style: RAG's Fragility to Linguistic Variation
- arxiv url: http://arxiv.org/abs/2504.08231v1
- Date: Fri, 11 Apr 2025 03:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:17.714539
- Title: Out of Style: RAG's Fragility to Linguistic Variation
- Title(参考訳): Out of Style: RAGの脆弱性と言語的変化
- Authors: Tianyu Cao, Neel Bhandari, Akhila Yerukola, Akari Asai, Maarten Sap,
- Abstract要約: ユーザクエリは言語的なバリエーションが大きく、依存するRAGコンポーネント間のカスケードエラーを引き起こす可能性がある。
我々は,4つの言語的次元(形式性,可読性,丁寧性,文法的正しさ)がRAG性能に与える影響を分析する。
- 参考スコア(独自算出の注目度): 29.59506089890902
- License:
- Abstract: Despite the impressive performance of Retrieval-augmented Generation (RAG) systems across various NLP benchmarks, their robustness in handling real-world user-LLM interaction queries remains largely underexplored. This presents a critical gap for practical deployment, where user queries exhibit greater linguistic variations and can trigger cascading errors across interdependent RAG components. In this work, we systematically analyze how varying four linguistic dimensions (formality, readability, politeness, and grammatical correctness) impact RAG performance. We evaluate two retrieval models and nine LLMs, ranging from 3 to 72 billion parameters, across four information-seeking Question Answering (QA) datasets. Our results reveal that linguistic reformulations significantly impact both retrieval and generation stages, leading to a relative performance drop of up to 40.41% in Recall@5 scores for less formal queries and 38.86% in answer match scores for queries containing grammatical errors. Notably, RAG systems exhibit greater sensitivity to such variations compared to LLM-only generations, highlighting their vulnerability to error propagation due to linguistic shifts. These findings highlight the need for improved robustness techniques to enhance reliability in diverse user interactions.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、様々な NLP ベンチマークで大幅に性能が向上しているにもかかわらず、現実のユーザ-LLM インタラクションクエリの処理におけるロバスト性はいまだに未熟である。
これは、ユーザクエリが言語的に大きなバリエーションを示し、相互依存的なRAGコンポーネント間のカスケードエラーを引き起こす、実践的なデプロイメントにおいて重要なギャップを示す。
本研究では、4つの言語的次元(形式性、可読性、丁寧性、文法的正しさ)がRAG性能に与える影響を系統的に分析する。
3から72億のパラメータから4つの情報検索質問回答(QA)データセットの2つの検索モデルと9つのLLMを評価する。
その結果,言語改革は検索と生成の段階に大きな影響を与え,リコール@5では40.41%,文法的誤りを含む問合せでは38.86%の相対的な結果が得られた。
特に、RAGシステムは、LLMのみの世代に比べて、そのようなバリエーションに対する感度が高く、言語的な変化によるエラー伝播に対する脆弱性を強調している。
これらの知見は、多様なユーザインタラクションの信頼性を高めるために、堅牢性の改善の必要性を浮き彫りにしている。
関連論文リスト
- Enhancing IR-based Fault Localization using Large Language Models [5.032687557488094]
本稿では、プログラミングエンティティ、スタックトレース、自然言語テキストに基づいてバグレポートを分類することで、障害局所化(IRFL)を強化する。
クエリの不正確性に対処するため,LLmiRQ+と呼ばれるユーザと対話型クエリ再構成手法を導入する。
6,340件のバグ報告を含む46のプロジェクトの評価では、MRRは0.6770件、MAPは0.5118件であり、7つの最先端IRFL技術を上回っている。
論文 参考訳(メタデータ) (2024-12-04T22:47:51Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners [38.30539869264287]
大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。
しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。
新たなプロンプト手法である RankPrompt を導入し,LLM が追加リソースを必要とせずに応答を自己ランクできる手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T02:34:18Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。