論文の概要: TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High
Text Coherence
- arxiv url: http://arxiv.org/abs/2212.13456v1
- Date: Tue, 27 Dec 2022 11:50:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:09:14.758668
- Title: TegFormer: Topic-to-Essay Generation with Good Topic Coverage and High
Text Coherence
- Title(参考訳): tegformer: 優れたトピックカバレッジと高いテキストコヒーレンスを備えたトピックツーエッセイ生成
- Authors: Wang Qi and Rui Liu and Yuan Zuo and Yong Chen and Dell Zhang
- Abstract要約: 本稿では,トピック・ツー・エッセイ生成のための新しいアプローチであるTegFormerを提案する。
emphTopic-Extensionレイヤは、与えられたトピックとドメイン固有のコンテキストの間のインタラクションをキャプチャする。
emphEmbedding-Fusionモジュールは、与えられたコーパスから学習したドメイン固有の単語埋め込みと、大量のテキストデータに基づいて事前訓練されたGPT-2モデルによって提供される汎用単語埋め込みとを組み合わせる。
- 参考スコア(独自算出の注目度): 8.422108048684215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating an essay based on a few given topics is a challenging NLP task.
Although several effective methods for this problem, topic-to-essay generation,
have appeared recently, there is still much room for improvement, especially in
terms of the coverage of the given topics and the coherence of the generated
text. In this paper, we propose a novel approach called TegFormer which
utilizes the Transformer architecture where the encoder is enriched with
domain-specific contexts while the decoder is enhanced by a large-scale
pre-trained language model. Specifically, a \emph{Topic-Extension} layer
capturing the interaction between the given topics and their domain-specific
contexts is plugged into the encoder. Since the given topics are usually
concise and sparse, such an additional layer can bring more topic-related
semantics in to facilitate the subsequent natural language generation.
Moreover, an \emph{Embedding-Fusion} module that combines the domain-specific
word embeddings learnt from the given corpus and the general-purpose word
embeddings provided by a GPT-2 model pre-trained on massive text data is
integrated into the decoder. Since GPT-2 is at a much larger scale, it contains
a lot more implicit linguistic knowledge which would help the decoder to
produce more grammatical and readable text. Extensive experiments have shown
that the pieces of text generated by TegFormer have better topic coverage and
higher text coherence than those from SOTA topic-to-essay techniques, according
to automatic and human evaluations. As revealed by ablation studies, both the
Topic-Extension layer and the Embedding-Fusion module contribute substantially
to TegFormer's performance advantage.
- Abstract(参考訳): 与えられたトピックに基づいてエッセイを作成することは、難しいNLPタスクです。
近年,この問題に対する効果的な手法であるトピック・ツー・エッセイ生成がいくつか出現しているが,特に与えられたトピックのカバレッジや生成されたテキストの一貫性に関して,改善の余地は大きい。
本稿では,エンコーダがドメイン固有のコンテキストに富み,デコーダが大規模に事前学習された言語モデルによって拡張される,TegFormerと呼ばれる新しい手法を提案する。
具体的には、与えられたトピックとそのドメイン固有のコンテキスト間のインタラクションをキャプチャする \emph{topic-extension}層をエンコーダに挿入する。
与えられたトピックは通常簡潔でスパースであるため、このような追加レイヤは、その後の自然言語生成を促進するために、よりトピック関連のセマンティクスをもたらすことができる。
さらに、与えられたコーパスから学習したドメイン固有の単語埋め込みと、大量のテキストデータに事前学習されたGPT-2モデルによって提供される汎用単語埋め込みとを結合した「emph{Embedding-Fusion}モジュールをデコーダに統合する。
GPT-2はより大規模であるため、より暗黙的な言語知識が含まれており、デコーダがより文法的で読みやすいテキストを生成するのに役立つ。
大規模な実験により,TegFormer が生成したテキストは,SOTA のトピック・トゥ・エッセイ技術よりもトピック・カバレッジとテキスト・コヒーレンスが高いことがわかった。
アブレーション研究によって明らかになったように、Topic-Extension 層と Embedding-Fusion モジュールの両方がTegFormer のパフォーマンスに大きく貢献する。
関連論文リスト
- TopicGPT: A Prompt-based Topic Modeling Framework [77.72072691307811]
TopicGPTは,大規模言語モデルを用いてテキストコレクション内の潜在トピックを明らかにするプロンプトベースのフレームワークである。
競合する手法と比較して、人間の分類とよく一致したトピックを生成する。
そのトピックもまた解釈可能であり、自然言語ラベルと関連する自由形式の記述を含むトピックを好んで、曖昧な言葉の袋を除いた。
論文 参考訳(メタデータ) (2023-11-02T17:57:10Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Uncovering the Potential of ChatGPT for Discourse Analysis in Dialogue:
An Empirical Study [51.079100495163736]
本稿では、トピックセグメンテーションと談話解析という2つの談話分析タスクにおけるChatGPTの性能を体系的に検証する。
ChatGPTは、一般的なドメイン間会話においてトピック構造を特定する能力を示すが、特定のドメイン間会話ではかなり困難である。
我々のより深い調査は、ChatGPTは人間のアノテーションよりも合理的なトピック構造を提供するが、階層的なレトリック構造を線形に解析することしかできないことを示唆している。
論文 参考訳(メタデータ) (2023-05-15T07:14:41Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z) - Robust Conversational AI with Grounded Text Generation [77.56950706340767]
GTGは、大規模なTransformerニューラルネットワークをバックボーンとして使用するハイブリッドモデルである。
タスク完了のための対話的信念状態と実世界の知識に基づく応答を生成する。
論文 参考訳(メタデータ) (2020-09-07T23:49:28Z) - Efficient text generation of user-defined topic using generative
adversarial networks [0.32228025627337864]
本稿では,この問題を解決するために,2レベル判別器を用いたユーザ定義型GAN(UD-GAN)を提案する。
提案手法は,他の方法よりも少ない時間でテキストを生成することができる。
論文 参考訳(メタデータ) (2020-06-22T04:49:47Z) - Diversifying Dialogue Generation with Non-Conversational Text [38.03510529185192]
非会話的テキストを活用することで対話生成を多様化する新しい視点を提案する。
我々は、フォーラムコメント、イディオム、本スニペットを含む複数の情報源から、大規模な非会話コーパスを収集する。
得られたモデルは、2つの会話データセット上でテストされ、コンテキストとの関連性を犠牲にすることなく、はるかに多様な応答を生成することが示されている。
論文 参考訳(メタデータ) (2020-05-09T02:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。