論文の概要: Structural Self-Supervised Objectives for Transformers
- arxiv url: http://arxiv.org/abs/2309.08272v1
- Date: Fri, 15 Sep 2023 09:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:03:09.640269
- Title: Structural Self-Supervised Objectives for Transformers
- Title(参考訳): 変圧器用自己監督型構造体
- Authors: Luca Di Liello
- Abstract要約: この論文は、教師なし生データを用いて自然言語モデルの事前学習を改善することに焦点を当てている。
第一部では,BERT の Masked Language Modeling (MLM) に対する3つの事前学習目標について紹介する。
第2部では、下流アプリケーションと構造的に整合する自己教師付き事前学習タスクを提案する。
- 参考スコア(独自算出の注目度): 3.018656336329545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis focuses on improving the pre-training of natural language models
using unsupervised raw data to make them more efficient and aligned with
downstream applications.
In the first part, we introduce three alternative pre-training objectives to
BERT's Masked Language Modeling (MLM), namely Random Token Substitution (RTS),
Cluster-based Random Token Substitution (C-RTS), and Swapped Language Modeling
(SLM). These objectives involve token swapping instead of masking, with RTS and
C-RTS aiming to predict token originality and SLM predicting the original token
values. Results show that RTS and C-RTS require less pre-training time while
maintaining performance comparable to MLM. Surprisingly, SLM outperforms MLM on
certain tasks despite using the same computational budget.
In the second part, we proposes self-supervised pre-training tasks that align
structurally with downstream applications, reducing the need for labeled data.
We use large corpora like Wikipedia and CC-News to train models to recognize if
text spans originate from the same paragraph or document in several ways. By
doing continuous pre-training, starting from existing models like RoBERTa,
ELECTRA, DeBERTa, BART, and T5, we demonstrate significant performance
improvements in tasks like Fact Verification, Answer Sentence Selection, and
Summarization. These improvements are especially pronounced when limited
annotation data is available. The proposed objectives also achieve
state-of-the-art results on various benchmark datasets, including FEVER (dev
set), ASNQ, WikiQA, and TREC-QA, as well as enhancing the quality of summaries.
Importantly, these techniques can be easily integrated with other methods
without altering the internal structure of Transformer models, making them
versatile for various NLP applications.
- Abstract(参考訳): この論文は、教師なしの生データを使って自然言語モデルの事前学習を改善し、より効率的に下流のアプリケーションと連携させることに焦点を当てている。
第一部では,BERT の Masked Language Modeling (MLM) に代わる3つの事前学習目標,すなわち Random Token Substitution (RTS), Cluster-based Random Token Substitution (C-RTS), Swapped Language Modeling (SLM) を紹介した。
これらの目的はマスキングではなくトークンスワップであり、RTSとC-RTSはトークンの独自性を予測し、SLMは元のトークン値を予測する。
その結果,RTS と C-RTS は MLM に匹敵する性能を維持しつつ,事前学習時間が少なくなった。
驚くべきことに、SLMは計算予算が同じであるにもかかわらず、特定のタスクにおいてMLMよりも優れています。
第2部では,下流アプリケーションと構造的に整合する自己教師付き事前学習タスクを提案し,ラベル付きデータの必要性を低減した。
われわれはウィキペディアやCC-Newsのような大規模なコーパスを使って、同じ段落や文書から派生したテキストかどうかをモデルに訓練している。
RoBERTa、ELECTRA、DeBERTa、BART、T5といった既存のモデルから始まり、継続的な事前トレーニングを行うことで、Fact Verification、Answer Sentence Selection、Summarizationといったタスクにおいて、大幅なパフォーマンス向上が示されている。
これらの改善は、アノテーションデータに制限がある場合に特に顕著である。
提案した目的は、FEVER (dev set)、ASNQ、WikiQA、TREC-QAなど、さまざまなベンチマークデータセットの最先端結果の達成と、要約の質の向上である。
重要なことに、これらの技術はトランスフォーマーモデルの内部構造を変更することなく、他の方法と容易に統合でき、様々なnlpアプリケーションで利用可能である。
関連論文リスト
- Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Frustratingly Simple Pretraining Alternatives to Masked Language
Modeling [10.732163031244651]
Masked Language Modeling (MLM) は自然言語処理においてテキスト表現の学習に広く用いられている。
本稿では,トークンレベルの分類タスクを表現の代替として用いた5つの簡単な事前学習目標について検討する。
論文 参考訳(メタデータ) (2021-09-04T08:52:37Z) - UHH-LT at SemEval-2020 Task 12: Fine-Tuning of Pre-Trained Transformer
Networks for Offensive Language Detection [28.701023986344993]
BERTのような事前訓練されたトランスフォーマーネットワークの微調整により、テキスト分類タスクの最先端結果が得られる。
私たちのRoBERTaベースの分類器は、英語のSemEval 2020 Task12で公式に第1位にランクされています。
論文 参考訳(メタデータ) (2020-04-23T23:59:58Z) - Conversational Question Reformulation via Sequence-to-Sequence
Architectures and Pretrained Language Models [56.268862325167575]
本稿では、列列列構造と事前学習言語モデル(PLM)を用いた会話型質問修正(CQR)の実証的研究について述べる。
我々はPLMを利用して、CQRタスクの目的である最大推定におけるトークン・トークン・トークン・トークンの独立性の強い仮定に対処する。
我々は、最近導入されたCANARDデータセットの微調整PLMをドメイン内タスクとして評価し、TREC 2019 CAsT Trackのデータからドメイン外タスクとしてモデルを検証する。
論文 参考訳(メタデータ) (2020-04-04T11:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。