Fugu-MT 論文翻訳(概要): Pre-Training a Language Model Without Human Language

論文の概要: Pre-Training a Language Model Without Human Language

arxiv url: http://arxiv.org/abs/2012.11995v1
Date: Tue, 22 Dec 2020 13:38:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-26 12:23:32.600718
Title: Pre-Training a Language Model Without Human Language
Title（参考訳）: 人間の言語を使わずに言語モデルを事前学習する
Authors: Cheng-Han Chiang and Hung-yi Lee
Abstract要約: 先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
参考スコア（独自算出の注目度）: 74.11825654535895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we study how the intrinsic nature of pre-training data contributes to the fine-tuned downstream performance. To this end, we pre-train different transformer-based masked language models on several corpora with certain features, and we fine-tune those language models on GLUE benchmarks. We find that models pre-trained on unstructured data beat those trained directly from scratch on downstream tasks. Our results also show that pre-training on structured data does not always make the model acquire ability that can be transferred to natural language downstream tasks. To our great astonishment, we uncover that pre-training on certain non-human language data gives GLUE performance close to performance pre-trained on another non-English language.
Abstract（参考訳）: 本稿では,事前学習データの本質的な性質が下流の微調整性能に与える影響について検討する。この目的のために,特定の特徴を持つ複数のコーパス上で異なるトランスフォーマーベースのマスク付き言語モデルを事前訓練し,GLUEベンチマークでそれらの言語モデルを微調整する。非構造化データで事前トレーニングされたモデルは、ダウンストリームタスクのスクラッチから直接トレーニングされたモデルを上回ることが分かりました。また,構造化データの事前トレーニングによって,自然言語処理に移行可能なモデル獲得能力が必ずしも得られないことを示す。驚くべきことに、特定の非人間の言語データに対する事前学習によって、GLUEのパフォーマンスが、他の非英語言語で事前訓練されたパフォーマンスに近くなることがわかった。

関連論文リスト

Fluent Alignment with Disfluent Judges: Post-training for Lower-resource Languages [16.671158083515373]
対象言語における命令調整を伴わない言語モデルを構築した。当社のアプローチでは,2つの一般的なアプローチと比較したオンライン学習手法を用いている。ノルウェーのBokmlに関するケーススタディを行い,母国語話者による評価を通して流布度を評価する。
論文参考訳（メタデータ） (2025-12-09T16:31:48Z)
Training Bilingual LMs with Data Constraints in the Targeted Language [20.262591969661447]
本研究では,データ制約対象言語における事前学習モデルの性能を向上させるために,高品質なデータを利用できる補助言語からデータを抽出する手法について検討する。本研究では,データ豊富な補助言語におけるトレーニングとデータ間のパフォーマンスギャップを,対象言語のトレーニングと比較して定量化する。以上の結果から,より強力な補助データセットは,モデルの変更や近接言語学習の目的を伴わずに,性能向上をもたらすことが示された。
論文参考訳（メタデータ） (2024-11-20T02:27:40Z)
Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。 GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文参考訳（メタデータ） (2023-06-14T06:00:18Z)
Pre-Trained Language-Meaning Models for Multilingual Parsing and Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。 DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T19:00:33Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文参考訳（メタデータ） (2022-10-21T23:43:13Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
On the Transferability of Pre-trained Language Models: A Study from Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文参考訳（メタデータ） (2021-09-08T10:39:57Z)
Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。本稿では,ラベルのないデータを利用して性能を向上する。
論文参考訳（メタデータ） (2021-05-08T08:04:30Z)
Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文参考訳（メタデータ） (2020-04-29T14:07:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。