論文の概要: REALM: Retrieval-Augmented Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2002.08909v1
- Date: Mon, 10 Feb 2020 18:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:31:59.491994
- Title: REALM: Retrieval-Augmented Language Model Pre-Training
- Title(参考訳): realm: 検索による言語モデルの事前学習
- Authors: Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang
- Abstract要約: 言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
- 参考スコア(独自算出の注目度): 37.3178586179607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model pre-training has been shown to capture a surprising amount of
world knowledge, crucial for NLP tasks such as question answering. However,
this knowledge is stored implicitly in the parameters of a neural network,
requiring ever-larger networks to cover more facts.
To capture knowledge in a more modular and interpretable way, we augment
language model pre-training with a latent knowledge retriever, which allows the
model to retrieve and attend over documents from a large corpus such as
Wikipedia, used during pre-training, fine-tuning and inference. For the first
time, we show how to pre-train such a knowledge retriever in an unsupervised
manner, using masked language modeling as the learning signal and
backpropagating through a retrieval step that considers millions of documents.
We demonstrate the effectiveness of Retrieval-Augmented Language Model
pre-training (REALM) by fine-tuning on the challenging task of Open-domain
Question Answering (Open-QA). We compare against state-of-the-art models for
both explicit and implicit knowledge storage on three popular Open-QA
benchmarks, and find that we outperform all previous methods by a significant
margin (4-16% absolute accuracy), while also providing qualitative benefits
such as interpretability and modularity.
- Abstract(参考訳): 言語モデルの事前学習は、疑問応答などのNLPタスクに不可欠な、驚くほど多くの世界の知識を捉えることが示されている。
しかし、この知識はニューラルネットワークのパラメータに暗黙的に格納され、より多くの事実をカバーするために、より広いネットワークを必要とする。
よりモジュール的で解釈可能な方法で知識をキャプチャするために、潜伏知識検索器で事前学習する言語モデルを拡張し、事前学習、微調整、推論に使用されるウィキペディアのような大規模なコーパスから文書を検索し、出席できるようにする。
学習信号としてマスク付き言語モデリングを用い,数百万の文書を考慮した検索ステップをバックプロパゲーションすることにより,このような知識検索者を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索言語モデル事前学習(REALM)の有効性を示す。
3つの人気のあるOpen-QAベンチマークにおける暗黙的および暗黙的知識ストレージの最先端モデルと比較し、従来の手法を大きなマージン(絶対精度4-16%)で上回り、解釈可能性やモジュラリティなどの質的な利点も提供する。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - Augmenting Pre-trained Language Models with QA-Memory for Open-Domain
Question Answering [38.071375112873675]
質問応答型エンコーダデコーダモデルの提案と事前学習戦略について述べる。
これにより、シングルホップのQAタスクにおいて、以前のQA検索方法よりも優れたエンドツーエンドシステムが得られる。
論文 参考訳(メタデータ) (2022-04-10T02:33:00Z) - Does Pre-training Induce Systematic Inference? How Masked Language
Models Acquire Commonsense Knowledge [91.15301779076187]
プレトレーニング中のBERTモデルのミニバッチに言語知識を導入し、モデルがサポート対象の推論にどの程度うまく一般化するかを評価する。
一般化は事前学習の過程では改善せず, 帰納的, 体系的推論ではなく, 表面的, 共起的パターンからコモンセンス知識が獲得されることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T03:13:04Z) - KgPLM: Knowledge-guided Language Model Pre-training via Generative and
Discriminative Learning [45.067001062192844]
事実の知識の完成と検証によって導かれる言語モデル事前トレーニングフレームワークを提示する。
ゼロショットクローゼ型質問応答タスクのセットであるLAMAの実験結果は、私たちのモデルが従来の訓練済み言語モデルよりも豊富な事実知識を含んでいることを示しています。
論文 参考訳(メタデータ) (2020-12-07T09:39:25Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。