Fugu-MT 論文翻訳(概要): DEPTH: Discourse Education through Pre-Training Hierarchically

論文の概要: DEPTH: Discourse Education through Pre-Training Hierarchically

arxiv url: http://arxiv.org/abs/2405.07788v2
Date: Sun, 23 Mar 2025 20:06:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.069411
Title: DEPTH: Discourse Education through Pre-Training Hierarchically
Title（参考訳）: DEPTH: 事前学習による談話教育
Authors: Zachary Bamberger, Ofek Glick, Chaim Baskin, Yonatan Belinkov,
Abstract要約: DEPTHは、談話指向の事前学習目標を用いて文の潜在表現を学習するエンコーダ・デコーダモデルである。我々のアプローチは、他の自然言語理解能力(NLU)に最小限の影響を与えながら、T5の談話能力を拡張する。
参考スコア（独自算出の注目度）: 33.89893399779713
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language Models (LMs) struggle with linguistic understanding at the discourse level, even though discourse patterns such as coherence, cohesion, and narrative flow are prevalent in their pre-training data. To improve the discourse capabilities of LMs already at the pre-training stage, we introduce DEPTH, an encoder-decoder model that learns latent representations for sentences using a discourse-oriented pre-training objective. DEPTH combines hierarchical sentence representations with two objectives: (1) Sentence Un-Shuffling, and (2) Span-Corruption. Our approach trains the model to represent both sub-word-level and sentence-level dependencies over a pre-training corpora. When trained either from scratch or continuing from a pre-trained T5 checkpoint, DEPTH learns semantic and discourse-level representations faster than T5, outperforming it in span-corruption loss despite the additional sentence-un-shuffling objective. Evaluations on the GLUE, DiscoEval, and NI benchmarks demonstrate DEPTH's ability to quickly learn diverse downstream tasks, which require syntactic, semantic, and discourse capabilities. Our approach extends the discourse capabilities of T5, while minimally impacting other natural language understanding (NLU) capabilities in the resulting LM. We share our codebase for reproducibility: https://github.com/zbambergerNLP/depth.git.
Abstract（参考訳）: 言語モデル(LM)は、コヒーレンス、凝集、物語の流れといった談話パターンが事前学習データに多く見られるにもかかわらず、言論レベルでの言語理解に苦慮する。我々は,すでに事前学習段階にあるLMの談話能力を改善するために,談話指向の事前学習目標を用いて文の潜在表現を学習するエンコーダ・デコーダモデルDEPTHを導入する。 DEPTHは階層的な文表現を,(1)文のアンシャッフル,(2)スパン・コープションの2つの目的と組み合わせる。我々のアプローチは、事前学習コーパス上のサブワードレベルと文レベルの依存関係の両方を表現するようにモデルを訓練する。 DEPTHは、スクラッチからトレーニングされたり、トレーニング済みのT5チェックポイントから継続されたりすると、意味と談話レベルの表現をT5よりも高速に学習し、追加の文アンシャッフルの目的にもかかわらず、スパン・コーカレーションの損失よりも優れている。 GLUE、DiscoEval、NIベンチマークの評価は、DepTHが様々な下流タスクを素早く学習する能力を示している。提案手法は,他の自然言語理解能力(NLU)に最小限の影響を与えながら,T5の談話能力を拡張する。再現性については、コードベースを共有しています。

関連論文リスト

Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。 4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-02-08T16:55:21Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
T5lephone: Bridging Speech and Text Self-supervised Models for Spoken Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文参考訳（メタデータ） (2022-11-01T17:00:23Z)
Sentence Representation Learning with Generative Objective rather than Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文参考訳（メタデータ） (2022-10-16T07:47:46Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。 5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文参考訳（メタデータ） (2022-02-10T04:04:57Z)
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文参考訳（メタデータ） (2021-10-20T00:59:36Z)
Augmenting BERT-style Models with Predictive Coding to Improve Discourse-level Representations [20.855686009404703]
本稿では,予測符号化理論のアイデアを用いて,議論レベルの表現を学習するためのメカニズムによりBERTスタイルの言語モデルを拡張することを提案する。提案手法は,ネットワークの中間層で動作する明示的なトップダウン接続を用いて,将来の文を予測できる。
論文参考訳（メタデータ） (2021-09-10T00:45:28Z)
Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文参考訳（メタデータ） (2021-05-23T15:16:54Z)
SLM: Learning a Discourse Language Representation with Sentence Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2020-10-30T13:33:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。