論文の概要: Analysing The Impact of Sequence Composition on Language Model
Pre-Training
- arxiv url: http://arxiv.org/abs/2402.13991v1
- Date: Wed, 21 Feb 2024 18:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 14:03:38.861789
- Title: Analysing The Impact of Sequence Composition on Language Model
Pre-Training
- Title(参考訳): 言語モデル事前学習におけるシーケンス構成の影響分析
- Authors: Yu Zhao, Yuanbin Qu, Konrad Staniszewski, Szymon Tworkowski, Wei Liu,
Piotr Mi{\l}o\'s, Yuxiang Wu, Pasquale Minervini
- Abstract要約: 本研究では,プレトレーニングシーケンス構成戦略がモデルの一般化特性に及ぼす影響について検討する。
因果マスキングを適用することで、事前トレーニング中に以前の文書から注意をそらす情報を含めることができる。
文書内因果マスキングでは、各トークンの確率は、同じ文書内の前のトークンにのみ条件付けられる。
- 参考スコア(独自算出の注目度): 20.929800523719187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most language model pre-training frameworks concatenate multiple documents
into fixed-length sequences and use causal masking to compute the likelihood of
each token given its context; this strategy is widely adopted due to its
simplicity and efficiency. However, to this day, the influence of the
pre-training sequence composition strategy on the generalisation properties of
the model remains under-explored. In this work, we find that applying causal
masking can lead to the inclusion of distracting information from previous
documents during pre-training, which negatively impacts the performance of the
models on language modelling and downstream tasks. In intra-document causal
masking, the likelihood of each token is only conditioned on the previous
tokens in the same document, eliminating potential distracting information from
previous documents and significantly improving performance. Furthermore, we
find that concatenating related documents can reduce some potential
distractions during pre-training, and our proposed efficient retrieval-based
sequence construction method, BM25Chunk, can improve in-context learning
(+11.6\%), knowledge memorisation (+9.8\%), and context utilisation (+7.2\%)
abilities of language models without sacrificing efficiency.
- Abstract(参考訳): ほとんどの言語モデル事前学習フレームワークは、複数のドキュメントを固定長列に結合し、コンテキストに応じて各トークンの可能性を計算するために因果マスキングを使用する。
しかし、現在に至るまで、事前学習シーケンス構成戦略がモデルの一般化特性に与える影響は未解明のままである。
本研究では, 因果マスキングを適用することで, 事前学習中に過去の文書から逸脱した情報を取り込み, 言語モデリングや下流タスクにおけるモデルの性能に悪影響を及ぼすことを示した。
ドキュメント内因果マスキングでは、各トークンの可能性を同じドキュメント内の以前のトークンのみに条件付けし、以前のドキュメントから潜在的に邪魔となる情報を排除し、パフォーマンスを大幅に向上させる。
さらに,コンカレント関連文書は事前学習中に潜在的な障害を軽減し,提案手法であるBM25Chunkは,文脈内学習(+11.6\%),知識記憶(+9.8\%),文脈利用(+7.2\%)の効率を損なうことなく,言語モデルの学習能力を向上させることができる。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Scalable Influence and Fact Tracing for Large Language Model Pretraining [14.598556308631018]
トレーニングデータ属性(TDA)メソッドは、特定のトレーニング例にモデル出力を振り返ることを目的としている。
本稿では,既存の勾配法を改良し,大規模に効果的に機能させる。
論文 参考訳(メタデータ) (2024-10-22T20:39:21Z) - Manual Verbalizer Enrichment for Few-Shot Text Classification [1.860409237919611]
acrshortmaveは、クラスラベルの豊か化による動詞化のためのアプローチである。
本モデルでは, 資源を著しく減らしながら, 最先端の成果が得られている。
論文 参考訳(メタデータ) (2024-10-08T16:16:47Z) - CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection [30.46562066023117]
本稿では,視覚言語基礎モデルの属性をインクリメンタルオブジェクト検出に活用する手法を提案する。
本手法は,クラス非依存の共有属性ベース(CASA)を構築し,インクリメンタルクラス間の共通意味情報をキャプチャする。
提案手法はパラメータ効率の微調整によりパラメータ記憶に0.7%しか加えず,拡張性と適応性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-08T08:36:12Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Causal Document-Grounded Dialogue Pre-training [81.16429056652483]
百万レベルのDocGD事前学習コーパスを構築するための因果完全データセット構築戦略を提案する。
3つのベンチマークデータセットの実験により、我々の因果前トレーニングは、完全な教師付き、低リソース、少数ショット、ゼロショット設定の下で、かなり、一貫した改善を達成できることが示された。
論文 参考訳(メタデータ) (2023-05-18T12:39:25Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。