論文の概要: Out of Style: RAG's Fragility to Linguistic Variation
- arxiv url: http://arxiv.org/abs/2504.08231v1
- Date: Fri, 11 Apr 2025 03:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 21:28:23.400779
- Title: Out of Style: RAG's Fragility to Linguistic Variation
- Title(参考訳): Out of Style: RAGの脆弱性と言語的変化
- Authors: Tianyu Cao, Neel Bhandari, Akhila Yerukola, Akari Asai, Maarten Sap,
- Abstract要約: ユーザクエリは言語的なバリエーションが大きく、依存するRAGコンポーネント間のカスケードエラーを引き起こす可能性がある。
我々は,4つの言語的次元(形式性,可読性,丁寧性,文法的正しさ)がRAG性能に与える影響を分析する。
- 参考スコア(独自算出の注目度): 29.59506089890902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive performance of Retrieval-augmented Generation (RAG) systems across various NLP benchmarks, their robustness in handling real-world user-LLM interaction queries remains largely underexplored. This presents a critical gap for practical deployment, where user queries exhibit greater linguistic variations and can trigger cascading errors across interdependent RAG components. In this work, we systematically analyze how varying four linguistic dimensions (formality, readability, politeness, and grammatical correctness) impact RAG performance. We evaluate two retrieval models and nine LLMs, ranging from 3 to 72 billion parameters, across four information-seeking Question Answering (QA) datasets. Our results reveal that linguistic reformulations significantly impact both retrieval and generation stages, leading to a relative performance drop of up to 40.41% in Recall@5 scores for less formal queries and 38.86% in answer match scores for queries containing grammatical errors. Notably, RAG systems exhibit greater sensitivity to such variations compared to LLM-only generations, highlighting their vulnerability to error propagation due to linguistic shifts. These findings highlight the need for improved robustness techniques to enhance reliability in diverse user interactions.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、様々な NLP ベンチマークで大幅に性能が向上しているにもかかわらず、現実のユーザ-LLM インタラクションクエリの処理におけるロバスト性はいまだに未熟である。
これは、ユーザクエリが言語的に大きなバリエーションを示し、相互依存的なRAGコンポーネント間のカスケードエラーを引き起こす、実践的なデプロイメントにおいて重要なギャップを示す。
本研究では、4つの言語的次元(形式性、可読性、丁寧性、文法的正しさ)がRAG性能に与える影響を系統的に分析する。
3から72億のパラメータから4つの情報検索質問回答(QA)データセットの2つの検索モデルと9つのLLMを評価する。
その結果,言語改革は検索と生成の段階に大きな影響を与え,リコール@5では40.41%,文法的誤りを含む問合せでは38.86%の相対的な結果が得られた。
特に、RAGシステムは、LLMのみの世代に比べて、そのようなバリエーションに対する感度が高く、言語的な変化によるエラー伝播に対する脆弱性を強調している。
これらの知見は、多様なユーザインタラクションの信頼性を高めるために、堅牢性の改善の必要性を浮き彫りにしている。
関連論文リスト
- Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - QE-RAG: A Robust Retrieval-Augmented Generation Benchmark for Query Entry Errors [23.225358970952197]
Retriever-augmented Generation (RAG) は、大規模言語モデル(LLM)の事実精度を高めるために広く採用されているアプローチである。
QE-RAGは、クエリエントリエラーに対するパフォーマンス評価に特化した、最初の堅牢なRAGベンチマークである。
コントラスト学習に基づくロバスト検索学習法と検索拡張クエリ補正法を提案する。
論文 参考訳(メタデータ) (2025-04-05T05:24:08Z) - AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification [25.27444694706659]
AskToActは、クエリとそのツール呼び出しソリューション間の構造マッピングを利用する。
私たちの重要な洞察は、ツールパラメータが明示的なユーザ意図を自然に表現していることです。
クエリから重要なパラメータを体系的に取り除き,それらを根拠として保持することにより,高品質なトレーニングデータの自動構築を可能にする。
論文 参考訳(メタデータ) (2025-03-03T12:55:49Z) - Beyond Words: How Large Language Models Perform in Quantitative Management Problem-Solving [0.0]
本研究では,ゼロショット環境での量的管理決定問題に取り組む際に,Large Language Models (LLM) がどのように機能するかを検討する。
私たちは、20の異なる管理シナリオにわたる5つの主要なモデルによって生成された900のレスポンスを生成しました。
論文 参考訳(メタデータ) (2025-02-23T12:39:39Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners [38.30539869264287]
大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。
しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。
新たなプロンプト手法である RankPrompt を導入し,LLM が追加リソースを必要とせずに応答を自己ランクできる手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T02:34:18Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。