論文の概要: Zero-shot topic generation
- arxiv url: http://arxiv.org/abs/2004.13956v1
- Date: Wed, 29 Apr 2020 04:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:34:04.746648
- Title: Zero-shot topic generation
- Title(参考訳): ゼロショットトピック生成
- Authors: Oleg Vasilyev, Kathryn Evans, Anna Venancio-Marques, John Bohannon
- Abstract要約: 本稿では,文書タイトル生成にのみ訓練されたモデルを用いてトピックを生成する手法を提案する。
私たちは、そのドキュメントのタイトルを生成するために、ドキュメント内の候補の関連性をキャプチャする機能を活用します。
アウトプットは、文書を記述し、コーパス内でそれを区別するのに最も関係のあるフレーズの重み付けされたコレクションである。
- 参考スコア(独自算出の注目度): 10.609815608017065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to generating topics using a model trained only for
document title generation, with zero examples of topics given during training.
We leverage features that capture the relevance of a candidate span in a
document for the generation of a title for that document. The output is a
weighted collection of the phrases that are most relevant for describing the
document and distinguishing it within a corpus, without requiring access to the
rest of the corpus. We conducted a double-blind trial in which human annotators
scored the quality of our machine-generated topics along with original
human-written topics associated with news articles from The Guardian and The
Huffington Post. The results show that our zero-shot model generates topic
labels for news documents that are on average equal to or higher quality than
those written by humans, as judged by humans.
- Abstract(参考訳): 本稿では,文書タイトル生成にのみ訓練されたモデルを用いてトピックを生成する手法を提案する。
我々は、その文書のタイトルを生成するために、文書中の候補スパンの関連性をキャプチャする機能を利用する。
出力は、文書を記述し、コーパス内で区別するのに最も関係のある句の重み付けされたコレクションであり、コーパスの残りの部分にアクセスする必要はない。
我々は、The GuardianやThe Huffington Postのニュース記事に関連するオリジナルの人書きのトピックとともに、人間のアノテータが機械生成トピックの質を評価した二重盲検試験を行った。
その結果, ゼロショットモデルでは, 人によって判断されるような, 平均的あるいは高い品質のニュース文書に対して, 話題ラベルを生成することがわかった。
関連論文リスト
- NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。
FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文 参考訳(メタデータ) (2024-02-28T16:59:35Z) - Attention Sorting Combats Recency Bias In Long Context Language Models [69.06809365227504]
現在の言語モデルは、世代間の長いコンテキストを効率的に組み込むことができないことが多い。
この問題に対する主要なコントリビュータは,事前トレーニング中に学んだと思われる注意点である。
我々は、この事実を活用して注意ソートを導入する:1ステップのデコードを実行し、それらが受け取った注意によって文書をソートし、プロセスを繰り返し、新しくソートされたコンテキストで回答を生成する。
論文 参考訳(メタデータ) (2023-09-28T05:19:06Z) - Characterizing Latent Perspectives of Media Houses Towards Public
Figures [0.0]
本研究は,GPT-2を用いたコーパスからの人物の非抽出的・生成的特徴評価のためのゼロショットアプローチを提案する。
我々は、このアプローチの健全な議論を構築するためのコーパスとして、いくつかの有名なニュースメディアハウスから、よく認識された記事を使用します。
論文 参考訳(メタデータ) (2023-09-12T10:27:39Z) - Improving Contextualized Topic Models with Negative Sampling [3.708656266586146]
本稿では,文脈化トピックモデルに対する負のサンプリング機構を提案し,生成したトピックの品質を向上する。
特に、モデルトレーニング中に生成された文書トピックベクトルを摂動させ、三重項損失を用いて、正しい文書トピックベクトルから入力文書に類似した文書を再構築することを奨励する。
論文 参考訳(メタデータ) (2023-03-27T07:28:46Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Unsupervised Deep Keyphrase Generation [14.544869226959612]
keyphrase生成は、長い文書を敬語句のコレクションにまとめることを目的としている。
ディープニューラルモデルは、このタスクにおいて顕著な成功を示し、文書から欠落するキーフレーズを予測することができる。
キーフレーズ生成のための新しい手法であるAutoKeyGenについて,人間のアノテーションを介さずに提示する。
論文 参考訳(メタデータ) (2021-04-18T05:53:19Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Generating Representative Headlines for News Stories [31.67864779497127]
同じ出来事をニュースに報告している記事のグループ化は、読者がニュースを消費するのを助ける一般的な方法である。
各ストーリーの代表的見出しを効率的かつ効果的に生成することは、依然として困難な研究課題である。
我々は,人間のアノテーションを使わずに大規模世代モデルを訓練するための遠隔監視手法を開発した。
論文 参考訳(メタデータ) (2020-01-26T02:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。