Fugu-MT 論文翻訳(概要): Unsupervised Improvement of Factual Knowledge in Language Models

論文の概要: Unsupervised Improvement of Factual Knowledge in Language Models

arxiv url: http://arxiv.org/abs/2304.01597v1
Date: Tue, 4 Apr 2023 07:37:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 14:45:35.086311
Title: Unsupervised Improvement of Factual Knowledge in Language Models
Title（参考訳）: 言語モデルにおけるファクチュアル知識の教師なし改善
Authors: Nafis Sadeq, Byungkyu Kang, Prarit Lamba, Julian McAuley
Abstract要約: マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
参考スコア（独自算出の注目度）: 4.5788796239850225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Masked language modeling (MLM) plays a key role in pretraining large language models. But the MLM objective is often dominated by high-frequency words that are sub-optimal for learning factual knowledge. In this work, we propose an approach for influencing MLM pretraining in a way that can improve language model performance on a variety of knowledge-intensive tasks. We force the language model to prioritize informative words in a fully unsupervised way. Experiments demonstrate that the proposed approach can significantly improve the performance of pretrained language models on tasks such as factual recall, question answering, sentiment analysis, and natural language inference in a closed-book setting.
Abstract（参考訳）: マスケッド言語モデリング(MLM)は、大規模言語モデルの事前訓練において重要な役割を果たしている。しかし、MLMの目的はしばしば、事実知識の学習に最適な高周波単語によって支配される。本研究では,知識集約型タスクにおける言語モデルの性能向上を図るために,MLM事前学習に影響を与えるアプローチを提案する。我々は、言語モデルに対して、完全に教師のない方法で情報的単語を優先順位付けするように強制する。実験により, 提案手法は, ファクトリコール, 質問応答, 感情分析, 自然言語推論などのタスクにおいて, 学習済み言語モデルの性能を大幅に向上させることができることを示した。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Pre-training Large Memory Language Models with Internal and External Knowledge [33.69960609226293]
本稿では,内部重みと外部データベースの両方に事実知識を格納する事前学習レシピを備えた,新たな言語モデルであるLarge Memory Language Models (LMLM)を提案する。提案手法は,トレーニング損失から現実の値を戦略的に隠蔽し,モデル重みの記憶に頼るのではなく,対象のルックアップを実行するようにモデルに指示する。
論文参考訳（メタデータ） (2025-05-21T19:26:03Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文参考訳（メタデータ） (2023-03-31T17:28:46Z)
An Overview on Language Models: Recent Developments and Outlook [32.528770408502396]
従来の言語モデル(CLM)は、因果的に言語シーケンスの確率を予測することを目的としている。事前学習言語モデル(PLM)はより広範な概念をカバーし、因果逐次モデリングと下流アプリケーションのための微調整の両方に使用することができる。
論文参考訳（メタデータ） (2023-03-10T07:55:00Z)
LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文参考訳（メタデータ） (2022-11-10T05:09:16Z)
Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文参考訳（メタデータ） (2022-09-30T19:56:04Z)
Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文参考訳（メタデータ） (2022-02-03T18:55:52Z)
Universal Sentence Representation Learning with Conditional Masked Language Model [7.334766841801749]
文表現を効果的に学習するための条件付きマスク言語モデリング(M)を提案する。我々の英語CMLMモデルは,SentEvalの最先端性能を実現する。完全に教師なしの学習方法として、CMLMは幅広い言語やドメインに便利に拡張できます。
論文参考訳（メタデータ） (2020-12-28T18:06:37Z)
DICT-MLM: Improved Multilingual Pre-Training using Bilingual Dictionaries [8.83363871195679]
主要な言語学習目的としてのマスケプド・モデリング(MLM)の目的。 DICT-MLMは、オリジナルのマスキングされた単語だけでなく、言語間の同義語も予測できるようにモデルにインセンティブを与える。 30以上の言語にまたがる複数の下流タスクに関する実証分析により,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2020-10-23T17:53:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。