論文の概要: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- arxiv url: http://arxiv.org/abs/2005.11401v4
- Date: Mon, 12 Apr 2021 15:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:22:52.053686
- Title: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- Title(参考訳): 知識集約型NLPタスクの検索強化生成
- Authors: Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir
Karpukhin, Naman Goyal, Heinrich K\"uttler, Mike Lewis, Wen-tau Yih, Tim
Rockt\"aschel, Sebastian Riedel, Douwe Kiela
- Abstract要約: 検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
- 参考スコア(独自算出の注目度): 133.93803565077337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models have been shown to store factual knowledge
in their parameters, and achieve state-of-the-art results when fine-tuned on
downstream NLP tasks. However, their ability to access and precisely manipulate
knowledge is still limited, and hence on knowledge-intensive tasks, their
performance lags behind task-specific architectures. Additionally, providing
provenance for their decisions and updating their world knowledge remain open
research problems. Pre-trained models with a differentiable access mechanism to
explicit non-parametric memory can overcome this issue, but have so far been
only investigated for extractive downstream tasks. We explore a general-purpose
fine-tuning recipe for retrieval-augmented generation (RAG) -- models which
combine pre-trained parametric and non-parametric memory for language
generation. We introduce RAG models where the parametric memory is a
pre-trained seq2seq model and the non-parametric memory is a dense vector index
of Wikipedia, accessed with a pre-trained neural retriever. We compare two RAG
formulations, one which conditions on the same retrieved passages across the
whole generated sequence, the other can use different passages per token. We
fine-tune and evaluate our models on a wide range of knowledge-intensive NLP
tasks and set the state-of-the-art on three open domain QA tasks, outperforming
parametric seq2seq models and task-specific retrieve-and-extract architectures.
For language generation tasks, we find that RAG models generate more specific,
diverse and factual language than a state-of-the-art parametric-only seq2seq
baseline.
- Abstract(参考訳): 大規模な事前学習された言語モデルは、そのパラメータに事実知識を格納し、下流のNLPタスクで微調整された場合の最先端の結果を達成することが示されている。
しかし、知識にアクセスし、正確に操作する能力はまだ限られており、そのため知識集約的なタスクでは、タスク固有のアーキテクチャに遅れが生じる。
さらに、彼らの決定の立証と世界知識の更新は、依然としてオープンな研究課題である。
明示的な非パラメトリックメモリに対する識別可能なアクセス機構を持つ事前学習モデルはこの問題を克服することができるが、これまでは抽出下流タスクに対してのみ検討されてきた。
本稿では,言語生成のための学習済みパラメトリックメモリと非パラメトリックメモリを組み合わせたRAGモデルについて検討する。
本稿では,パラメータメモリが事前学習されたSeq2seqモデルであり,非パラメータメモリがウィキペディアの高密度ベクトルインデックスであり,事前学習されたニューラルレトリバーによってアクセスされるRAGモデルを紹介する。
2つのrag式を比較した。1つは、生成されたシーケンス全体で同じ検索されたパスの条件であり、もう1つはトークンごとに異なるパスを使うことができる。
我々は,多種多様な知識集約型NLPタスクのモデルを微調整し評価し,3つのオープンドメインQAタスク,パラメトリックSeq2seqモデル,タスク固有の検索・抽出アーキテクチャを最先端に設定する。
言語生成タスクの場合、RAGモデルは最先端のパラメトリックのみのSeq2seqベースラインよりも、より具体的で多様で現実的な言語を生成する。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Augmenting Pre-trained Language Models with QA-Memory for Open-Domain
Question Answering [38.071375112873675]
質問応答型エンコーダデコーダモデルの提案と事前学習戦略について述べる。
これにより、シングルホップのQAタスクにおいて、以前のQA検索方法よりも優れたエンドツーエンドシステムが得られる。
論文 参考訳(メタデータ) (2022-04-10T02:33:00Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。