論文の概要: KFCNet: Knowledge Filtering and Contrastive Learning Network for
Generative Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2109.06704v1
- Date: Tue, 14 Sep 2021 14:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 21:57:17.199319
- Title: KFCNet: Knowledge Filtering and Contrastive Learning Network for
Generative Commonsense Reasoning
- Title(参考訳): KFCNet:生成コモンセンス推論のための知識フィルタリングとコントラスト学習ネットワーク
- Authors: Haonan Li, Yeyun Gong, Jian Jiao, Ruofei Zhang, Timothy Baldwin, Nan
Duan
- Abstract要約: 本稿では,外部知識を参照し,より優れた生成性能を実現する新しい知識フィルタリング・コントラスト学習ネットワーク(KFCNet)を提案する。
具体的には、低品質な候補を除去するBERTベースのフィルタモデルを提案し、エンコーダとデコーダのそれぞれにコントラスト学習を別々に適用する。
CommonGenベンチマークの実験では、我々のモデルは、過去の最先端技術よりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 46.4629010131822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have led to substantial gains over a broad range
of natural language processing (NLP) tasks, but have been shown to have
limitations for natural language generation tasks with high-quality
requirements on the output, such as commonsense generation and ad keyword
generation. In this work, we present a novel Knowledge Filtering and
Contrastive learning Network (KFCNet) which references external knowledge and
achieves better generation performance. Specifically, we propose a BERT-based
filter model to remove low-quality candidates, and apply contrastive learning
separately to each of the encoder and decoder, within a general
encoder--decoder architecture. The encoder contrastive module helps to capture
global target semantics during encoding, and the decoder contrastive module
enhances the utility of retrieved prototypes while learning general features.
Extensive experiments on the CommonGen benchmark show that our model
outperforms the previous state of the art by a large margin: +6.6 points (42.5
vs. 35.9) for BLEU-4, +3.7 points (33.3 vs. 29.6) for SPICE, and +1.3 points
(18.3 vs. 17.0) for CIDEr. We further verify the effectiveness of the proposed
contrastive module on ad keyword generation, and show that our model has
potential commercial value.
- Abstract(参考訳): 事前学習された言語モデルは、幅広い自然言語処理(NLP)タスクよりも大幅に向上したが、コモンセンス生成や広告キーワード生成などの出力に高品質な要求がある自然言語生成タスクには制限があることが示されている。
本研究では,外部知識を参照し,より優れた生成性能を実現する新しい知識フィルタリング・コントラスト学習ネットワーク(KFCNet)を提案する。
具体的には, 一般のエンコーダ-デコーダアーキテクチャにおいて, 低品質の候補を取り除き, エンコーダとデコーダそれぞれに個別にコントラスト学習を適用するbertベースのフィルタモデルを提案する。
エンコーダコントラストモジュールはエンコーディング中にグローバルなターゲットセマンティクスをキャプチャするのに役立ち、デコーダコントラストモジュールは一般的な特徴を学習しながら、検索されたプロトタイプの有用性を高める。
コモンゲンベンチマークの広範な実験により、我々のモデルは、bleu-4では+6.6ポイント(42.5対35.9)、スパイスでは+3.7ポイント(33.3対29.6)、サイダーでは+1.3ポイント(18.3対17.0)という大差で先行技術を上回ることが示された。
提案するコントラストモジュールが広告キーワード生成に与える影響をさらに検証し,本モデルが商業的価値を持つ可能性を示す。
関連論文リスト
- Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文 参考訳(メタデータ) (2023-05-19T08:30:11Z) - Relaxed Attention for Transformer Models [29.896876421216373]
本稿では,注意重みの平滑化を簡易かつ容易に行う,リラックスした注意を探索する。
エンコーダの自己注意層に適用した場合,注意の緩和が正規化をもたらすことを示す。
我々は、最近のベンチマーク手法と組み合わせて、いくつかのタスクにまたがって注意を緩めたことの利点を実証する。
論文 参考訳(メタデータ) (2022-09-20T14:10:28Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Delving Deeper into the Decoder for Video Captioning [23.202746094988715]
ビデオキャプションは、自然言語文を用いてビデオクリップを記述することを目的とした、高度なマルチモーダルタスクである。
我々はデコーダについて徹底的な調査を行い、モデルの性能を向上させるために3つの手法を採用する。
Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSR-VTT) データセットで実証されている。
論文 参考訳(メタデータ) (2020-01-16T02:18:27Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z) - Improved Multi-Stage Training of Online Attention-based Encoder-Decoder
Models [20.81248613653279]
本稿では,オンラインアテンションベースのエンコーダデコーダモデルの性能向上を目的としたマルチステージマルチタスクトレーニング手法を提案する。
3段階のアーキテクチャ粒度、文字エンコーダ、バイトペアエンコーダ(BPE)ベースのエンコーダ、アテンションデコーダに基づく3段階のトレーニングを提案する。
我々のモデルでは,小モデルと大モデルでそれぞれ5.04%と4.48%の単語誤り率(WER)をLibrispeechテストクリーンデータ上で達成している。
論文 参考訳(メタデータ) (2019-12-28T02:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。