論文の概要: How Context Affects Language Models' Factual Predictions
- arxiv url: http://arxiv.org/abs/2005.04611v1
- Date: Sun, 10 May 2020 09:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 01:46:35.368524
- Title: How Context Affects Language Models' Factual Predictions
- Title(参考訳): 文脈が言語モデルの実態予測に与える影響
- Authors: Fabio Petroni, Patrick Lewis, Aleksandra Piktus, Tim Rockt\"aschel,
Yuxiang Wu, Alexander H. Miller, Sebastian Riedel
- Abstract要約: 検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
- 参考スコア(独自算出の注目度): 134.29166998377187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When pre-trained on large unsupervised textual corpora, language models are
able to store and retrieve factual knowledge to some extent, making it possible
to use them directly for zero-shot cloze-style question answering. However,
storing factual knowledge in a fixed number of weights of a language model
clearly has limitations. Previous approaches have successfully provided access
to information outside the model weights using supervised architectures that
combine an information retrieval system with a machine reading component. In
this paper, we go a step further and integrate information from a retrieval
system with a pre-trained language model in a purely unsupervised way. We
report that augmenting pre-trained language models in this way dramatically
improves performance and that the resulting system, despite being unsupervised,
is competitive with a supervised machine reading baseline. Furthermore,
processing query and context with different segment tokens allows BERT to
utilize its Next Sentence Prediction pre-trained classifier to determine
whether the context is relevant or not, substantially improving BERT's
zero-shot cloze-style question-answering performance and making its predictions
robust to noisy contexts.
- Abstract(参考訳): 大きな教師なしのテキストコーパスで事前訓練された場合、言語モデルは事実知識をある程度保存して取得することができ、ゼロショットのクローゼスタイルの質問応答に直接使用することができる。
しかし、言語モデルの一定数の重みに事実知識を格納することは、明らかに制限がある。
従来のアプローチでは、情報検索システムと機械読み取りコンポーネントを組み合わせた教師付きアーキテクチャを使用して、モデルウェイト外の情報へのアクセスが成功している。
本稿では、さらに一歩進めて、学習済み言語モデルと検索システムからの情報を純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する。
さらに、クエリとコンテキストを異なるセグメントトークンで処理することで、BERTはそのNext Sentence Predictionプリトレーニングされた分類器を使用して、コンテキストが関連しているかどうかを判断し、BERTのゼロショットクローゼスタイルの質問応答性能を大幅に改善し、その予測をノイズの多いコンテキストに堅牢にする。
関連論文リスト
- Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。