論文の概要: Pre-training Text-to-Text Transformers for Concept-centric Common Sense
- arxiv url: http://arxiv.org/abs/2011.07956v2
- Date: Wed, 25 Nov 2020 04:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 11:51:53.304416
- Title: Pre-training Text-to-Text Transformers for Concept-centric Common Sense
- Title(参考訳): 概念中心共通感覚のための事前学習型テキスト・テキスト変換器
- Authors: Wangchunshu Zhou, Dong-Ho Lee, Ravi Kiran Selvam, Seyeon Lee, Bill
Yuchen Lin, Xiang Ren
- Abstract要約: 本稿では,概念中心のコモンセンス知識を用いた事前学習型言語モデルの拡張を目的とした概念認識型言語モデル(CALM)を提案する。
我々は,CALMが外部知識グラフに頼ることなく,事前学習したテキスト・テキスト・トランスフォーマーのパラメータに,より常識的な知識を詰め込むことができることを示す。
- 参考スコア(独自算出の注目度): 48.11844351407072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PTLM) have achieved impressive results in a
range of natural language understanding (NLU) and generation (NLG) tasks.
However, current pre-training objectives such as masked token prediction (for
BERT-style PTLMs) and masked span infilling (for T5-style PTLMs) do not
explicitly model the relational commonsense knowledge about everyday concepts,
which is crucial to many downstream tasks that need common sense to understand
or generate. To augment PTLMs with concept-centric commonsense knowledge, in
this paper, we propose both generative and contrastive objectives for learning
common sense from the text, and use them as intermediate self-supervised
learning tasks for incrementally pre-training PTLMs (before task-specific
fine-tuning on downstream datasets). Furthermore, we develop a joint
pre-training framework to unify generative and contrastive objectives so that
they can mutually reinforce each other. Extensive experimental results show
that our method, concept-aware language model (CALM), can pack more commonsense
knowledge into the parameters of a pre-trained text-to-text transformer without
relying on external knowledge graphs, yielding better performance on both NLU
and NLG tasks. We show that while only incrementally pre-trained on a
relatively small corpus for a few steps, CALM outperforms baseline methods by a
consistent margin and even comparable with some larger PTLMs, which suggests
that CALM can serve as a general, plug-and-play method for improving the
commonsense reasoning ability of a PTLM.
- Abstract(参考訳): 事前学習された言語モデル(PTLM)は、自然言語理解(NLU)と生成(NLG)タスクにおいて、目覚ましい結果を得た。
しかしながら、マスクドトークン予測(bert型ptlm)やマスク付きスパンインフィルディング(t5型ptlm)といった現在の事前トレーニング対象は、日常的な概念に関するリレーショナルコモンセンスの知識を明示的にモデル化していない。
本稿では,PTLMを概念中心のコモンセンス知識で強化するために,テキストから共通感覚を学習するための生成的目的とコントラスト的目的の両方を提案し,PTLMを段階的に事前学習するための中間的自己教師型学習タスクとして利用する(下流データセットにおけるタスク特化微調整前)。
さらに,生産的かつコントラスト的な目的を統一し,相互に強化できる共同事前学習フレームワークを開発する。
実験の結果,概念認識型言語モデル (CALM) は,外部知識グラフに頼らずに事前学習したテキスト・テキスト・トランスフォーマーのパラメータに,より常識的な知識を詰め込むことで,NLUタスクとNLGタスクの両方でより優れた性能が得られることがわかった。
比較的小さなコーパスを数ステップで段階的に事前学習しただけで、CALMはベースライン法を一貫したマージンで上回り、より大きなPTLMに匹敵する性能を示し、CALMはPTLMの常識的推論能力を改善するための汎用的なプラグアンドプレイ法として機能することを示唆している。
関連論文リスト
- Boosting LLM Translation Skills without General Ability Loss via Rationale Distillation [31.733890798723085]
大規模言語モデル(LLM)は多くのNLPタスクにまたがって印象的な結果を得たが、それでも機械翻訳の難しさに悩まされている。
本稿では,RaDis (Rationale Distillation) と呼ばれる新しい手法を提案する。
RaDisはLLMの強力な生成能力を活用して、データトレーニングの合理性を作り、それを“再生”して、忘れることを防ぐ。
論文 参考訳(メタデータ) (2024-10-17T18:09:43Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - A Primer on Contrastive Pretraining in Language Processing: Methods,
Lessons Learned and Perspectives [22.933794444266596]
最近の自己監督型および監督型対照型NLP前訓練法について述べる。
アプリケーションによる先行研究や構造ワークから学んだことと、主要なコントラスト学習の概念を紹介します。
コントラストNLPの課題と今後の方向性は,画像表現事前学習の成功に近づいたコントラストNLPの事前学習を促進することにある。
論文 参考訳(メタデータ) (2021-02-25T16:35:07Z) - Task-specific Objectives of Pre-trained Language Models for Dialogue
Adaptation [79.0866650271659]
PrLMを利用する一般的なプロセスは、まずタスク非依存のLMトレーニング目標を持つ大規模汎用コーパス上で事前トレーニングを行い、タスク固有のトレーニング目標を持つタスクデータセットを微調整する。
タスク固有の目的を持つドメイン内タスク関連コーパスにタスク固有の事前学習を導入する。
この手順は、特定のタスクのモデル理解能力を高めるために、元の2つのステージの間に置かれる。
論文 参考訳(メタデータ) (2020-09-10T16:46:46Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。