論文の概要: KFCNet: Knowledge Filtering and Contrastive Learning Network for
Generative Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2109.06704v1
- Date: Tue, 14 Sep 2021 14:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 21:57:17.199319
- Title: KFCNet: Knowledge Filtering and Contrastive Learning Network for
Generative Commonsense Reasoning
- Title(参考訳): KFCNet:生成コモンセンス推論のための知識フィルタリングとコントラスト学習ネットワーク
- Authors: Haonan Li, Yeyun Gong, Jian Jiao, Ruofei Zhang, Timothy Baldwin, Nan
Duan
- Abstract要約: 本稿では,外部知識を参照し,より優れた生成性能を実現する新しい知識フィルタリング・コントラスト学習ネットワーク(KFCNet)を提案する。
具体的には、低品質な候補を除去するBERTベースのフィルタモデルを提案し、エンコーダとデコーダのそれぞれにコントラスト学習を別々に適用する。
CommonGenベンチマークの実験では、我々のモデルは、過去の最先端技術よりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 46.4629010131822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models have led to substantial gains over a broad range
of natural language processing (NLP) tasks, but have been shown to have
limitations for natural language generation tasks with high-quality
requirements on the output, such as commonsense generation and ad keyword
generation. In this work, we present a novel Knowledge Filtering and
Contrastive learning Network (KFCNet) which references external knowledge and
achieves better generation performance. Specifically, we propose a BERT-based
filter model to remove low-quality candidates, and apply contrastive learning
separately to each of the encoder and decoder, within a general
encoder--decoder architecture. The encoder contrastive module helps to capture
global target semantics during encoding, and the decoder contrastive module
enhances the utility of retrieved prototypes while learning general features.
Extensive experiments on the CommonGen benchmark show that our model
outperforms the previous state of the art by a large margin: +6.6 points (42.5
vs. 35.9) for BLEU-4, +3.7 points (33.3 vs. 29.6) for SPICE, and +1.3 points
(18.3 vs. 17.0) for CIDEr. We further verify the effectiveness of the proposed
contrastive module on ad keyword generation, and show that our model has
potential commercial value.
- Abstract(参考訳): 事前学習された言語モデルは、幅広い自然言語処理(NLP)タスクよりも大幅に向上したが、コモンセンス生成や広告キーワード生成などの出力に高品質な要求がある自然言語生成タスクには制限があることが示されている。
本研究では,外部知識を参照し,より優れた生成性能を実現する新しい知識フィルタリング・コントラスト学習ネットワーク(KFCNet)を提案する。
具体的には, 一般のエンコーダ-デコーダアーキテクチャにおいて, 低品質の候補を取り除き, エンコーダとデコーダそれぞれに個別にコントラスト学習を適用するbertベースのフィルタモデルを提案する。
エンコーダコントラストモジュールはエンコーディング中にグローバルなターゲットセマンティクスをキャプチャするのに役立ち、デコーダコントラストモジュールは一般的な特徴を学習しながら、検索されたプロトタイプの有用性を高める。
コモンゲンベンチマークの広範な実験により、我々のモデルは、bleu-4では+6.6ポイント(42.5対35.9)、スパイスでは+3.7ポイント(33.3対29.6)、サイダーでは+1.3ポイント(18.3対17.0)という大差で先行技術を上回ることが示された。
提案するコントラストモジュールが広告キーワード生成に与える影響をさらに検証し,本モデルが商業的価値を持つ可能性を示す。
関連論文リスト
- Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation [1.9726019592585404]
本稿では、Few-Shot Learningによるコード翻訳を強化する新しい手法を提案する。
既存のコード翻訳のレポジトリを活用することで、最も関連性の高い例を動的に検索し、新しいコードセグメントを翻訳する際にモデルをガイドします。
Retrieval-Augmented Generationに基づく本手法は,翻訳品質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-29T00:41:48Z) - Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation [22.467879240959686]
品質、コスト、時間、データのプライバシなど、いくつかのパフォーマンス基準で、プログラミングフィードバック生成のための言語モデルをベンチマークします。
我々は,GPT-4生成合成データに基づく微調整パイプラインを開発した。
WebLLMのブラウザ内推論エンジンを用いた微調整Llama3-8BとPhi3-3.8B 4ビット量子化モデルの有効性を示す。
論文 参考訳(メタデータ) (2024-06-07T16:22:51Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文 参考訳(メタデータ) (2023-05-19T08:30:11Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z) - Improved Multi-Stage Training of Online Attention-based Encoder-Decoder
Models [20.81248613653279]
本稿では,オンラインアテンションベースのエンコーダデコーダモデルの性能向上を目的としたマルチステージマルチタスクトレーニング手法を提案する。
3段階のアーキテクチャ粒度、文字エンコーダ、バイトペアエンコーダ(BPE)ベースのエンコーダ、アテンションデコーダに基づく3段階のトレーニングを提案する。
我々のモデルでは,小モデルと大モデルでそれぞれ5.04%と4.48%の単語誤り率(WER)をLibrispeechテストクリーンデータ上で達成している。
論文 参考訳(メタデータ) (2019-12-28T02:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。