論文の概要: DEPTH: Discourse Education through Pre-Training Hierarchically
- arxiv url: http://arxiv.org/abs/2405.07788v1
- Date: Mon, 13 May 2024 14:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:25:43.148829
- Title: DEPTH: Discourse Education through Pre-Training Hierarchically
- Title(参考訳): DEPTH: 事前学習による談話教育
- Authors: Zachary Bamberger, Ofek Glick, Chaim Baskin, Yonatan Belinkov,
- Abstract要約: DEPTHは、談話指向の事前学習目標を用いて文を表現することを学習するエンコーダ・デコーダモデルである。
DEPTHは、スクラッチからトレーニングされたり、トレーニング済みのT5チェックポイントから継続されたりすると、T5よりも早く意味と談話レベルの表現を学習する。
- 参考スコア(独自算出の注目度): 33.89893399779713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) often struggle with linguistic understanding at the discourse level, even though discourse patterns such as coherence, cohesion, and narrative flow are prevalent in their pre-training data. Current methods address these challenges only after the pre-training phase, relying on expensive human annotated data to align the model. To improve the discourse capabilities of LMs already at the pre-training stage, we introduce DEPTH, an encoder-decoder model that learns to represent sentences using a discourse-oriented pre-training objective. DEPTH combines hierarchical sentence representations with two objectives: (1) Sentence Un-Shuffling, and (2) Span-Corruption. This approach trains the model to represent both sub-word-level and sentence-level dependencies over a massive amount of unstructured text. When trained either from scratch or continuing from a pre-trained T5 checkpoint, DEPTH learns semantic and discourse-level representations faster than T5, outperforming it in span-corruption loss despite the additional sentence-un-shuffling objective. Evaluations on the GLUE, DiscoEval, and NI benchmarks demonstrate DEPTH's ability to quickly learn diverse downstream tasks, which require syntactic, semantic, and discourse capabilities. Overall, our approach extends the discourse capabilities of T5, while minimally impacting other natural language understanding (NLU) capabilities in the resulting LM.
- Abstract(参考訳): 言語モデル(LM)は、コヒーレンス、凝集、物語の流れといった談話パターンが事前学習データに多く見られるにもかかわらず、談話レベルで言語理解に苦慮することが多い。
現在の方法は、トレーニング前の段階でのみこれらの課題に対処し、高価な人間の注釈付きデータを使ってモデルを整列させる。
我々は,すでに事前学習段階にあるLMの談話能力を改善するために,談話指向の事前学習目標を用いて文の表現を学習するエンコーダ・デコーダモデルであるDEPTHを導入する。
DEPTHは階層的な文表現を,(1)文のアンシャッフル,(2)スパン・コープションの2つの目的と組み合わせる。
このアプローチは、大量の非構造化テキストに対するサブワードレベルと文レベルの依存関係の両方を表現するようにモデルを訓練する。
DEPTHは、スクラッチからトレーニングされたり、トレーニング済みのT5チェックポイントから継続されたりすると、意味と談話レベルの表現をT5よりも高速に学習し、追加の文アンシャッフルの目的にもかかわらず、スパン・コーカレーションの損失よりも優れている。
GLUE、DiscoEval、NIベンチマークの評価は、DepTHが様々な下流タスクを素早く学習する能力を示している。
全体として、我々のアプローチはT5の談話能力を拡張しつつ、結果のLMにおける他の自然言語理解能力(NLU)に最小限の影響を及ぼす。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Augmenting BERT-style Models with Predictive Coding to Improve
Discourse-level Representations [20.855686009404703]
本稿では,予測符号化理論のアイデアを用いて,議論レベルの表現を学習するためのメカニズムによりBERTスタイルの言語モデルを拡張することを提案する。
提案手法は,ネットワークの中間層で動作する明示的なトップダウン接続を用いて,将来の文を予測できる。
論文 参考訳(メタデータ) (2021-09-10T00:45:28Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。