論文の概要: Learning Mechanism Underlying NLP Pre-Training and Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.03407v1
- Date: Wed, 03 Sep 2025 15:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.574397
- Title: Learning Mechanism Underlying NLP Pre-Training and Fine-Tuning
- Title(参考訳): NLP事前学習と微調整による学習機構
- Authors: Yarden Tzach, Ronit D. Gross, Ella Koresh, Shalom Rosner, Or Shpringer, Tal Halevi, Ido Kanter,
- Abstract要約: 2つの目標について検討し、事前学習の成功の基盤となるメカニズムを理解し、事前学習の精度と分類タスクの微調整の間の相互作用を決定する。
結果は、Wikipediaデータセットで事前トレーニングされたBERT-6アーキテクチャに基づいており、FewRelとDBpediaの分類タスクを微調整した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) enables the understanding and generation of meaningful human language, typically using a pre-trained complex architecture on a large dataset to learn the language and next fine-tune its weights to implement a specific task. Twofold goals are examined; to understand the mechanism underlying successful pre-training and to determine the interplay between the pre-training accuracy and the fine-tuning of classification tasks. The following main results were obtained; the accuracy per token (APT) increased with its appearance frequency in the dataset, and its average over all tokens served as an order parameter to quantify pre-training success, which increased along the transformer blocks. Pre-training broke the symmetry among tokens and grouped them into finite, small, strong match token clusters, as inferred from the presented token confusion matrix. This feature was sharpened along the transformer blocks toward the output layer, enhancing its performance considerably compared with that of the embedding layer. Consequently, higher-order language structures were generated by pre-training, even though the learning cost function was directed solely at identifying a single token. These pre-training findings were reflected by the improved fine-tuning accuracy along the transformer blocks. Additionally, the output label prediction confidence was found to be independent of the average input APT, as the input meaning was preserved since the tokens are replaced primarily by strong match tokens. Finally, although pre-training is commonly absent in image classification tasks, its underlying mechanism is similar to that used in fine-tuning NLP classification tasks, hinting at its universality. The results were based on the BERT-6 architecture pre-trained on the Wikipedia dataset and fine-tuned on the FewRel and DBpedia classification tasks.
- Abstract(参考訳): 自然言語処理(NLP)は、一般的に大規模なデータセット上で事前訓練された複雑なアーキテクチャを使用して、言語を学習し、次に特定のタスクを実装するためにその重みを微調整する、有意義な人間の言語の理解と生成を可能にする。
2つの目標について検討し、事前学習の成功の基盤となるメカニズムを理解し、事前学習の精度と分類タスクの微調整の間の相互作用を決定する。
その結果, トークン毎の精度はデータセットの出現頻度とともに増加し, 全てのトークンの平均値が事前学習の成功を定量化するための順序パラメータとして機能し, 変圧器ブロックに沿って増大した。
事前学習はトークン間の対称性を破り、提示されたトークンの混乱行列から推測されるように、それらを有限で小さく、強いマッチトークンクラスターに分類した。
この機能は、トランスブロックに沿って出力層に向かって研ぎ澄まされ、埋め込み層に比べて性能が大幅に向上した。
その結果、学習コスト関数は1つのトークンのみを識別することを目的としていたにもかかわらず、事前学習によって高次言語構造が生成された。
これらの事前学習結果は, 変圧器ブロックに沿った微調整精度の向上によって反映された。
さらに,出力ラベル予測信頼度は平均入力APTとは独立であることが判明した。
最後に、事前学習は画像分類タスクでは一般的に欠落しているが、その基盤となるメカニズムは微調整のNLP分類タスクで使われるものと似ており、その普遍性を示唆している。
結果は、Wikipediaデータセットで事前トレーニングされたBERT-6アーキテクチャに基づいており、FewRelとDBpediaの分類タスクを微調整した。
関連論文リスト
- Tiny language models [0.0]
本研究では,小言語モデル (TLMs) が大言語モデル (LLMs) と同じ鍵質的特徴を示すかどうかを検討する。
我々は,TLMが事前訓練されたモデルと非訓練されたモデルの間に,分類タスク間で明らかな性能差を示すことを示した。
事前訓練された深部TLMアーキテクチャによって達成された分類精度は、複数の独立に訓練された浅部アーキテクチャからなるソフト委員会によって再現することができる。
論文 参考訳(メタデータ) (2025-07-20T08:49:57Z) - Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。
APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。
筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文 参考訳(メタデータ) (2025-02-06T23:58:11Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Simple-Sampling and Hard-Mixup with Prototypes to Rebalance Contrastive Learning for Text Classification [11.072083437769093]
我々は不均衡テキスト分類タスクのためのSharpReCLという新しいモデルを提案する。
私たちのモデルは、いくつかのデータセットで人気のある大きな言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-05-19T11:33:49Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。