論文の概要: DEPTH: Discourse Education through Pre-Training Hierarchically
- arxiv url: http://arxiv.org/abs/2405.07788v1
- Date: Mon, 13 May 2024 14:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-14 13:25:43.148829
- Title: DEPTH: Discourse Education through Pre-Training Hierarchically
- Title(参考訳): DEPTH: 事前学習による談話教育
- Authors: Zachary Bamberger, Ofek Glick, Chaim Baskin, Yonatan Belinkov,
- Abstract要約: DEPTHは、談話指向の事前学習目標を用いて文を表現することを学習するエンコーダ・デコーダモデルである。
DEPTHは、スクラッチからトレーニングされたり、トレーニング済みのT5チェックポイントから継続されたりすると、T5よりも早く意味と談話レベルの表現を学習する。
- 参考スコア(独自算出の注目度): 33.89893399779713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) often struggle with linguistic understanding at the discourse level, even though discourse patterns such as coherence, cohesion, and narrative flow are prevalent in their pre-training data. Current methods address these challenges only after the pre-training phase, relying on expensive human annotated data to align the model. To improve the discourse capabilities of LMs already at the pre-training stage, we introduce DEPTH, an encoder-decoder model that learns to represent sentences using a discourse-oriented pre-training objective. DEPTH combines hierarchical sentence representations with two objectives: (1) Sentence Un-Shuffling, and (2) Span-Corruption. This approach trains the model to represent both sub-word-level and sentence-level dependencies over a massive amount of unstructured text. When trained either from scratch or continuing from a pre-trained T5 checkpoint, DEPTH learns semantic and discourse-level representations faster than T5, outperforming it in span-corruption loss despite the additional sentence-un-shuffling objective. Evaluations on the GLUE, DiscoEval, and NI benchmarks demonstrate DEPTH's ability to quickly learn diverse downstream tasks, which require syntactic, semantic, and discourse capabilities. Overall, our approach extends the discourse capabilities of T5, while minimally impacting other natural language understanding (NLU) capabilities in the resulting LM.
- Abstract(参考訳): 言語モデル(LM)は、コヒーレンス、凝集、物語の流れといった談話パターンが事前学習データに多く見られるにもかかわらず、談話レベルで言語理解に苦慮することが多い。
現在の方法は、トレーニング前の段階でのみこれらの課題に対処し、高価な人間の注釈付きデータを使ってモデルを整列させる。
我々は,すでに事前学習段階にあるLMの談話能力を改善するために,談話指向の事前学習目標を用いて文の表現を学習するエンコーダ・デコーダモデルであるDEPTHを導入する。
DEPTHは階層的な文表現を,(1)文のアンシャッフル,(2)スパン・コープションの2つの目的と組み合わせる。
このアプローチは、大量の非構造化テキストに対するサブワードレベルと文レベルの依存関係の両方を表現するようにモデルを訓練する。
DEPTHは、スクラッチからトレーニングされたり、トレーニング済みのT5チェックポイントから継続されたりすると、意味と談話レベルの表現をT5よりも高速に学習し、追加の文アンシャッフルの目的にもかかわらず、スパン・コーカレーションの損失よりも優れている。
GLUE、DiscoEval、NIベンチマークの評価は、DepTHが様々な下流タスクを素早く学習する能力を示している。
全体として、我々のアプローチはT5の談話能力を拡張しつつ、結果のLMにおける他の自然言語理解能力(NLU)に最小限の影響を及ぼす。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - Let's Predict Sentence by Sentence [31.702157701240967]
本稿では,次の文の連続的な埋め込みを自動回帰予測することにより,事前訓練されたトークンレベルのLMを文空間内での操作に適応させるフレームワークを提案する。
以上の結果から,事前学習したLMは,遅延埋め込み空間内での抽象的構造的推論に効果的に移行できることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T10:28:35Z) - TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。
我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-09T17:14:33Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。
5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。
ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文 参考訳(メタデータ) (2022-02-10T04:04:57Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Augmenting BERT-style Models with Predictive Coding to Improve
Discourse-level Representations [20.855686009404703]
本稿では,予測符号化理論のアイデアを用いて,議論レベルの表現を学習するためのメカニズムによりBERTスタイルの言語モデルを拡張することを提案する。
提案手法は,ネットワークの中間層で動作する明示的なトップダウン接続を用いて,将来の文を予測できる。
論文 参考訳(メタデータ) (2021-09-10T00:45:28Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。