Fugu-MT 論文翻訳(概要): KFCNet: Knowledge Filtering and Contrastive Learning Network for Generative Commonsense Reasoning

論文の概要: KFCNet: Knowledge Filtering and Contrastive Learning Network for Generative Commonsense Reasoning

arxiv url: http://arxiv.org/abs/2109.06704v1
Date: Tue, 14 Sep 2021 14:10:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-15 21:57:17.199319
Title: KFCNet: Knowledge Filtering and Contrastive Learning Network for Generative Commonsense Reasoning
Title（参考訳）: KFCNet:生成コモンセンス推論のための知識フィルタリングとコントラスト学習ネットワーク
Authors: Haonan Li, Yeyun Gong, Jian Jiao, Ruofei Zhang, Timothy Baldwin, Nan Duan
Abstract要約: 本稿では,外部知識を参照し,より優れた生成性能を実現する新しい知識フィルタリング・コントラスト学習ネットワーク(KFCNet)を提案する。具体的には、低品質な候補を除去するBERTベースのフィルタモデルを提案し、エンコーダとデコーダのそれぞれにコントラスト学習を別々に適用する。 CommonGenベンチマークの実験では、我々のモデルは、過去の最先端技術よりも大きなマージンで優れています。
参考スコア（独自算出の注目度）: 46.4629010131822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained language models have led to substantial gains over a broad range of natural language processing (NLP) tasks, but have been shown to have limitations for natural language generation tasks with high-quality requirements on the output, such as commonsense generation and ad keyword generation. In this work, we present a novel Knowledge Filtering and Contrastive learning Network (KFCNet) which references external knowledge and achieves better generation performance. Specifically, we propose a BERT-based filter model to remove low-quality candidates, and apply contrastive learning separately to each of the encoder and decoder, within a general encoder--decoder architecture. The encoder contrastive module helps to capture global target semantics during encoding, and the decoder contrastive module enhances the utility of retrieved prototypes while learning general features. Extensive experiments on the CommonGen benchmark show that our model outperforms the previous state of the art by a large margin: +6.6 points (42.5 vs. 35.9) for BLEU-4, +3.7 points (33.3 vs. 29.6) for SPICE, and +1.3 points (18.3 vs. 17.0) for CIDEr. We further verify the effectiveness of the proposed contrastive module on ad keyword generation, and show that our model has potential commercial value.
Abstract（参考訳）: 事前学習された言語モデルは、幅広い自然言語処理(NLP)タスクよりも大幅に向上したが、コモンセンス生成や広告キーワード生成などの出力に高品質な要求がある自然言語生成タスクには制限があることが示されている。本研究では,外部知識を参照し,より優れた生成性能を実現する新しい知識フィルタリング・コントラスト学習ネットワーク(KFCNet)を提案する。具体的には, 一般のエンコーダ-デコーダアーキテクチャにおいて, 低品質の候補を取り除き, エンコーダとデコーダそれぞれに個別にコントラスト学習を適用するbertベースのフィルタモデルを提案する。エンコーダコントラストモジュールはエンコーディング中にグローバルなターゲットセマンティクスをキャプチャするのに役立ち、デコーダコントラストモジュールは一般的な特徴を学習しながら、検索されたプロトタイプの有用性を高める。コモンゲンベンチマークの広範な実験により、我々のモデルは、bleu-4では+6.6ポイント(42.5対35.9)、スパイスでは+3.7ポイント(33.3対29.6)、サイダーでは+1.3ポイント(18.3対17.0)という大差で先行技術を上回ることが示された。提案するコントラストモジュールが広告キーワード生成に与える影響をさらに検証し,本モデルが商業的価値を持つ可能性を示す。

関連論文リスト

CHORUS: Zero-shot Hierarchical Retrieval and Orchestration for Generating Linear Programming Code [0.0]
本研究では,Large Language Models (LLMs) のLinear Programming (LP) コード生成における効率性について検討する。自然言語問題文からGurobiベースのLPコードを合成する検索拡張生成フレームワークCHORUSを提案する。 NL4-Codeベンチマークの実験では、CHORUSはベースラインや従来のRAGに比べて大きなマージンでオープンソースのLLMの性能を改善している。
論文参考訳（メタデータ） (2025-05-02T16:36:57Z)
Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation [1.9726019592585404]
本稿では、Few-Shot Learningによるコード翻訳を強化する新しい手法を提案する。既存のコード翻訳のレポジトリを活用することで、最も関連性の高い例を動的に検索し、新しいコードセグメントを翻訳する際にモデルをガイドします。 Retrieval-Augmented Generationに基づく本手法は,翻訳品質を大幅に向上させる。
論文参考訳（メタデータ） (2024-07-29T00:41:48Z)
Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation [22.467879240959686]
品質、コスト、時間、データのプライバシなど、いくつかのパフォーマンス基準で、プログラミングフィードバック生成のための言語モデルをベンチマークします。我々は,GPT-4生成合成データに基づく微調整パイプラインを開発した。 WebLLMのブラウザ内推論エンジンを用いた微調整Llama3-8BとPhi3-3.8B 4ビット量子化モデルの有効性を示す。
論文参考訳（メタデータ） (2024-06-07T16:22:51Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
CodingTeachLLM: Empowering LLM's Coding Ability via AST Prior Knowledge [0.0]
我々は,コーディング学習用に設計された大規模言語モデル(LLM)であるCodingTeachLLMを紹介する。本モデルは,学習知識の構造的分解と漸進的指導によるアウトプットを実現する。当社のモデルは,オープンソースモデルと比較して,コード能力の最先端性も達成している。
論文参考訳（メタデータ） (2024-03-13T05:38:39Z)
Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。一般化逆変換拡散確率モデル(EDDPM)を導入する。 EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文参考訳（メタデータ） (2024-02-29T10:08:57Z)
Extrapolating Multilingual Understanding Models as Multilingual Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文参考訳（メタデータ） (2023-05-22T15:33:21Z)
DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。 DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文参考訳（メタデータ） (2023-05-19T08:30:11Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)
E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。 E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文参考訳（メタデータ） (2022-05-30T08:25:36Z)
Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文参考訳（メタデータ） (2020-01-14T02:05:14Z)
Improved Multi-Stage Training of Online Attention-based Encoder-Decoder Models [20.81248613653279]
本稿では,オンラインアテンションベースのエンコーダデコーダモデルの性能向上を目的としたマルチステージマルチタスクトレーニング手法を提案する。 3段階のアーキテクチャ粒度、文字エンコーダ、バイトペアエンコーダ(BPE)ベースのエンコーダ、アテンションデコーダに基づく3段階のトレーニングを提案する。我々のモデルでは,小モデルと大モデルでそれぞれ5.04%と4.48%の単語誤り率(WER)をLibrispeechテストクリーンデータ上で達成している。
論文参考訳（メタデータ） (2019-12-28T02:29:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。