論文の概要: Unsupervised Improvement of Factual Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2304.01597v1
- Date: Tue, 4 Apr 2023 07:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 14:45:35.086311
- Title: Unsupervised Improvement of Factual Knowledge in Language Models
- Title(参考訳): 言語モデルにおけるファクチュアル知識の教師なし改善
- Authors: Nafis Sadeq, Byungkyu Kang, Prarit Lamba, Julian McAuley
- Abstract要約: マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.5788796239850225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked language modeling (MLM) plays a key role in pretraining large language
models. But the MLM objective is often dominated by high-frequency words that
are sub-optimal for learning factual knowledge. In this work, we propose an
approach for influencing MLM pretraining in a way that can improve language
model performance on a variety of knowledge-intensive tasks. We force the
language model to prioritize informative words in a fully unsupervised way.
Experiments demonstrate that the proposed approach can significantly improve
the performance of pretrained language models on tasks such as factual recall,
question answering, sentiment analysis, and natural language inference in a
closed-book setting.
- Abstract(参考訳): マスケッド言語モデリング(MLM)は、大規模言語モデルの事前訓練において重要な役割を果たしている。
しかし、MLMの目的はしばしば、事実知識の学習に最適な高周波単語によって支配される。
本研究では,知識集約型タスクにおける言語モデルの性能向上を図るために,MLM事前学習に影響を与えるアプローチを提案する。
我々は、言語モデルに対して、完全に教師のない方法で情報的単語を優先順位付けするように強制する。
実験により, 提案手法は, ファクトリコール, 質問応答, 感情分析, 自然言語推論などのタスクにおいて, 学習済み言語モデルの性能を大幅に向上させることができることを示した。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - An Overview on Language Models: Recent Developments and Outlook [32.528770408502396]
従来の言語モデル(CLM)は、因果的に言語シーケンスの確率を予測することを目的としている。
事前学習言語モデル(PLM)はより広範な概念をカバーし、因果逐次モデリングと下流アプリケーションのための微調整の両方に使用することができる。
論文 参考訳(メタデータ) (2023-03-10T07:55:00Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Universal Sentence Representation Learning with Conditional Masked
Language Model [7.334766841801749]
文表現を効果的に学習するための条件付きマスク言語モデリング(M)を提案する。
我々の英語CMLMモデルは,SentEvalの最先端性能を実現する。
完全に教師なしの学習方法として、CMLMは幅広い言語やドメインに便利に拡張できます。
論文 参考訳(メタデータ) (2020-12-28T18:06:37Z) - DICT-MLM: Improved Multilingual Pre-Training using Bilingual
Dictionaries [8.83363871195679]
主要な言語学習目的としてのマスケプド・モデリング(MLM)の目的。
DICT-MLMは、オリジナルのマスキングされた単語だけでなく、言語間の同義語も予測できるようにモデルにインセンティブを与える。
30以上の言語にまたがる複数の下流タスクに関する実証分析により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-23T17:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。