論文の概要: Making Retrieval-Augmented Language Models Robust to Irrelevant Context
- arxiv url: http://arxiv.org/abs/2310.01558v2
- Date: Sun, 5 May 2024 15:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 00:45:15.139621
- Title: Making Retrieval-Augmented Language Models Robust to Irrelevant Context
- Title(参考訳): 意味不明な文脈にロバストな検索言語モデルの構築
- Authors: Ori Yoran, Tomer Wolfson, Ori Ram, Jonathan Berant,
- Abstract要約: ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
- 参考スコア(独自算出の注目度): 55.564789967211844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented language models (RALMs) hold promise to produce language understanding systems that are are factual, efficient, and up-to-date. An important desideratum of RALMs, is that retrieved information helps model performance when it is relevant, and does not harm performance when it is not. This is particularly important in multi-hop reasoning scenarios, where misuse of irrelevant evidence can lead to cascading errors. However, recent work has shown that retrieval augmentation can sometimes have a negative effect on performance. In this work, we present a thorough analysis on five open-domain question answering benchmarks, characterizing cases when retrieval reduces accuracy. We then propose two methods to mitigate this issue. First, a simple baseline that filters out retrieved passages that do not entail question-answer pairs according to a natural language inference (NLI) model. This is effective in preventing performance reduction, but at a cost of also discarding relevant passages. Thus, we propose a method for automatically generating data to fine-tune the language model to properly leverage retrieved passages, using a mix of relevant and irrelevant contexts at training time. We empirically show that even 1,000 examples suffice to train the model to be robust to irrelevant contexts while maintaining high performance on examples with relevant ones.
- Abstract(参考訳): Retrieval-augmented Language Model (RALM) は、事実、効率的、最新の言語理解システムを作成することを約束している。
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立ち、そうでない場合にはパフォーマンスを害しないことである。
これは、無関係な証拠の誤用がカスケードエラーを引き起こす、マルチホップ推論シナリオにおいて特に重要である。
しかし,近年の研究では,検索の増大が性能に悪影響を及ぼすことが示されている。
本研究では,5つのオープンドメイン質問応答ベンチマークを網羅的に分析し,検索精度が低下するケースを特徴付ける。
次にこの問題を緩和する2つの方法を提案する。
まず、自然言語推論(NLI)モデルに従って質問応答ペアを含まない検索されたパスをフィルタリングする単純なベースライン。
これは性能低下を防ぐのに有効であるが、関連する通路を廃棄するコストもかかる。
そこで本研究では,学習時に関連するコンテキストと無関係なコンテキストを混在させて,検索したパスを適切に活用するために,言語モデルを微調整するデータの自動生成手法を提案する。
経験的に、1000の例でも、関連する例では高いパフォーマンスを維持しながら、無関係なコンテキストに対して堅牢なモデルをトレーニングするのに十分であることを示す。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Assessing "Implicit" Retrieval Robustness of Large Language Models [17.006566708461346]
様々な大規模言語モデルの「単純」検索頑健性を評価する。
金と気を散らすコンテキストの混合による微調整は、モデルの不正確な検索に対する堅牢性を大幅に向上させる。
これは、大きな言語モデルは、最終回答の監督からのみ学習することで、関連性または無関係な検索コンテキストを暗黙的に扱うことができることを示唆している。
論文 参考訳(メタデータ) (2024-06-26T07:38:24Z) - Prompting-based Synthetic Data Generation for Few-Shot Question Answering [23.97949073816028]
大規模言語モデルを用いることで,複数データセットにおける質問応答性能が向上することを示す。
言語モデルには、一般的な事前学習/微調整スキームを超えて使える貴重なタスク非依存の知識が含まれていることを示唆する。
論文 参考訳(メタデータ) (2024-05-15T13:36:43Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Detrimental Contexts in Open-Domain Question Answering [9.059854023578508]
質問応答に使用される検索テーマのアーキテクチャに対して,パスが有害な影響を及ぼすかを分析する。
この結果から,2つの人気のあるQAデータセットにおいて,有害経路をフィルタリングすることにより,モデル精度を10%向上できることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T11:45:16Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer
with Fine-tuning Slow and Fast [50.19681990847589]
既存の研究では、1つの(ソース)言語で微調整された多言語事前学習言語モデルが、非ソース言語の下流タスクでもうまく機能していることが示されている。
本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。
論文 参考訳(メタデータ) (2023-05-19T06:04:21Z) - Large Language Models Can Be Easily Distracted by Irrelevant Context [29.315230178997002]
本研究では,モデル解の精度が無関係な文脈によってどのように影響されるかを検討する。
我々は,大規模言語モデルにおける最先端のプロンプト手法の散らかしやすさをベンチマークで測定する。
論文 参考訳(メタデータ) (2023-01-31T20:48:57Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。