論文の概要: DeepTitle -- Leveraging BERT to generate Search Engine Optimized
Headlines
- arxiv url: http://arxiv.org/abs/2107.10935v1
- Date: Thu, 22 Jul 2021 21:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 13:52:03.718158
- Title: DeepTitle -- Leveraging BERT to generate Search Engine Optimized
Headlines
- Title(参考訳): DeepTitle -- BERTを活用して検索エンジン最適化見出しを生成する
- Authors: Cristian Anastasiu and Hanna Behnke and Sarah L\"uck and Viktor
Malesevic and Aamna Najmi and Javier Poveda-Panter
- Abstract要約: 本稿では,事前学習した言語モデルを用いて,ドイツ語のニュース見出し生成を抽象化する方法について紹介する。
我々は,抽象的なテキスト要約のための細調整技術,すなわちエンコーダとデコーダに異なるベイトを使用する技術の現状を取り入れた。
ドイツのニュースデータセット上で実験を行い, ROUGE-L-gram Fスコアを40.02で達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated headline generation for online news articles is not a trivial task
- machine generated titles need to be grammatically correct, informative,
capture attention and generate search traffic without being "click baits" or
"fake news". In this paper we showcase how a pre-trained language model can be
leveraged to create an abstractive news headline generator for German language.
We incorporate state of the art fine-tuning techniques for abstractive text
summarization, i.e. we use different optimizers for the encoder and decoder
where the former is pre-trained and the latter is trained from scratch. We
modify the headline generation to incorporate frequently sought keywords
relevant for search engine optimization. We conduct experiments on a German
news data set and achieve a ROUGE-L-gram F-score of 40.02. Furthermore, we
address the limitations of ROUGE for measuring the quality of text
summarization by introducing a sentence similarity metric and human evaluation.
- Abstract(参考訳): オンラインニュース記事の自動見出し生成は、簡単な作業ではない。機械生成されたタイトルは、文法的に正確で、情報的であり、注意を引き、"クリックベイト"や"フェイクニュース"を使わずに検索トラフィックを生成する必要がある。
本稿では,事前学習した言語モデルを用いて,ドイツ語の抽象的なニュース見出し生成手法を提案する。
抽象的なテキスト要約,すなわち,アートの微調整技術が組み込まれている。
前者が事前トレーニングされ、後者がスクラッチからトレーニングされるエンコーダとデコーダには、異なる最適化器を使用します。
見出し生成を改良し、検索エンジンの最適化に関係のある頻繁なキーワードを組み込む。
ドイツのニュースデータセット上で実験を行い, ROUGE-L-gram Fスコア40.02を達成する。
さらに,文類似度指標と人格評価を導入することで,テキスト要約の質を測定するルージュの限界にも対処する。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DSGPT: Domain-Specific Generative Pre-Training of Transformers for Text
Generation in E-commerce Title and Review Summarization [14.414693156937782]
テキスト生成のための新しいドメイン固有生成事前学習法(DS-GPT)を提案する。
電子商取引モバイルディスプレイにおける製品タイトルと要約問題に応用する。
論文 参考訳(メタデータ) (2021-12-15T19:02:49Z) - Keyphrase Generation Beyond the Boundaries of Title and Abstract [28.56508031460787]
キーワード生成は、与えられた文書を最もよく記述するフレーズ(キーワード)を生成することを目的としている。
本研究では、意味論的に類似した記事からの追加データの統合や、与えられた記事の全文の統合が、ニューラルキーフレーズ生成モデルに役立つかどうかを考察する。
特に記事の要約形式で全文から文を追加することは、両方のキーフレーズの生成を著しく改善することを発見した。
論文 参考訳(メタデータ) (2021-12-13T16:33:01Z) - Domain Controlled Title Generation with Human Evaluation [2.5505887482902287]
良いタイトルは、あなたの研究に値する注目を集めることができます。
ドメイン制御のタイトルでは、事前学習されたテキストからテキストへのトランスフォーマーモデルと追加のトークン技術を使用しました。
タイトルトークンは、グローバル語彙ではなく、ドメイン固有の語彙のローカル分布(グローバル語彙のサブセット)からサンプリングされます。
論文 参考訳(メタデータ) (2021-03-08T20:55:55Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Automatically Ranked Russian Paraphrase Corpus for Text Generation [0.0]
この記事は、ロシア語のパラフレーズ生成のための大規模なコーパスの自動開発とランキングに焦点を当てている。
既存のロシア語の注釈付きパラフレーズデータセットは、小型のParaPhraser corpusとParaPlagに限られている。
論文 参考訳(メタデータ) (2020-06-17T08:40:52Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z) - Context-Based Quotation Recommendation [60.93257124507105]
本稿では,新しい文脈対応引用レコメンデーションシステムを提案する。
これは、所定のソース文書から引用可能な段落とトークンの列挙リストを生成する。
音声テキストと関連するニュース記事の収集実験を行う。
論文 参考訳(メタデータ) (2020-05-17T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。