論文の概要: Analysing The Impact of Sequence Composition on Language Model
Pre-Training
- arxiv url: http://arxiv.org/abs/2402.13991v1
- Date: Wed, 21 Feb 2024 18:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:03:38.861789
- Title: Analysing The Impact of Sequence Composition on Language Model
Pre-Training
- Title(参考訳): 言語モデル事前学習におけるシーケンス構成の影響分析
- Authors: Yu Zhao, Yuanbin Qu, Konrad Staniszewski, Szymon Tworkowski, Wei Liu,
Piotr Mi{\l}o\'s, Yuxiang Wu, Pasquale Minervini
- Abstract要約: 本研究では,プレトレーニングシーケンス構成戦略がモデルの一般化特性に及ぼす影響について検討する。
因果マスキングを適用することで、事前トレーニング中に以前の文書から注意をそらす情報を含めることができる。
文書内因果マスキングでは、各トークンの確率は、同じ文書内の前のトークンにのみ条件付けられる。
- 参考スコア(独自算出の注目度): 20.929800523719187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most language model pre-training frameworks concatenate multiple documents
into fixed-length sequences and use causal masking to compute the likelihood of
each token given its context; this strategy is widely adopted due to its
simplicity and efficiency. However, to this day, the influence of the
pre-training sequence composition strategy on the generalisation properties of
the model remains under-explored. In this work, we find that applying causal
masking can lead to the inclusion of distracting information from previous
documents during pre-training, which negatively impacts the performance of the
models on language modelling and downstream tasks. In intra-document causal
masking, the likelihood of each token is only conditioned on the previous
tokens in the same document, eliminating potential distracting information from
previous documents and significantly improving performance. Furthermore, we
find that concatenating related documents can reduce some potential
distractions during pre-training, and our proposed efficient retrieval-based
sequence construction method, BM25Chunk, can improve in-context learning
(+11.6\%), knowledge memorisation (+9.8\%), and context utilisation (+7.2\%)
abilities of language models without sacrificing efficiency.
- Abstract(参考訳): ほとんどの言語モデル事前学習フレームワークは、複数のドキュメントを固定長列に結合し、コンテキストに応じて各トークンの可能性を計算するために因果マスキングを使用する。
しかし、現在に至るまで、事前学習シーケンス構成戦略がモデルの一般化特性に与える影響は未解明のままである。
本研究では, 因果マスキングを適用することで, 事前学習中に過去の文書から逸脱した情報を取り込み, 言語モデリングや下流タスクにおけるモデルの性能に悪影響を及ぼすことを示した。
ドキュメント内因果マスキングでは、各トークンの可能性を同じドキュメント内の以前のトークンのみに条件付けし、以前のドキュメントから潜在的に邪魔となる情報を排除し、パフォーマンスを大幅に向上させる。
さらに,コンカレント関連文書は事前学習中に潜在的な障害を軽減し,提案手法であるBM25Chunkは,文脈内学習(+11.6\%),知識記憶(+9.8\%),文脈利用(+7.2\%)の効率を損なうことなく,言語モデルの学習能力を向上させることができる。
関連論文リスト
- In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Causal Document-Grounded Dialogue Pre-training [81.16429056652483]
百万レベルのDocGD事前学習コーパスを構築するための因果完全データセット構築戦略を提案する。
3つのベンチマークデータセットの実験により、我々の因果前トレーニングは、完全な教師付き、低リソース、少数ショット、ゼロショット設定の下で、かなり、一貫した改善を達成できることが示された。
論文 参考訳(メタデータ) (2023-05-18T12:39:25Z) - Class Enhancement Losses with Pseudo Labels for Zero-shot Semantic
Segmentation [40.09476732999614]
マスクの提案モデルは、ゼロショットセマンティックセグメンテーションの性能を大幅に改善した。
トレーニング中にバックグラウンドを埋め込むことは問題であり、結果として得られたモデルが過剰に学習し、正しいラベルではなく、すべての見えないクラスをバックグラウンドクラスとして割り当てる傾向がある。
本稿では,学習中の背景埋め込みの使用を回避し,テキスト埋め込みとマスク提案のセマンティックな関係を類似度スコアのランク付けにより活用する新しいクラス拡張損失を提案する。
論文 参考訳(メタデータ) (2023-01-18T06:55:02Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - Using Deep Mixture-of-Experts to Detect Word Meaning Shift for TempoWiC [0.9543943371833467]
本稿では、マクロF1スコア77.05%のTempoWiCタスクへのdma提出について述べる。
さらに改良するために,Mixture-of-Experts (MoE) アプローチを用いてPOS情報と単語意味表現を統合する。
論文 参考訳(メタデータ) (2022-11-07T11:28:34Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。