論文の概要: PerKey: A Persian News Corpus for Keyphrase Extraction and Generation
- arxiv url: http://arxiv.org/abs/2009.12269v1
- Date: Fri, 25 Sep 2020 14:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:48:11.507234
- Title: PerKey: A Persian News Corpus for Keyphrase Extraction and Generation
- Title(参考訳): PerKey: キーワード抽出と生成のためのペルシャニュースコーパス
- Authors: Ehsan Doostmohammadi, Mohammad Hadi Bokaei, Hossein Sameti
- Abstract要約: PerKeyは、ペルシャの6つのニュースサイトから553kのニュース記事のコーパスであり、比較的高品質な著者がキーフレーズを抽出した。
データは、キーフレーズの品質を保証するために、人間の評価に入れられた。
- 参考スコア(独自算出の注目度): 1.192436948211501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyphrases provide an extremely dense summary of a text. Such information can
be used in many Natural Language Processing tasks, such as information
retrieval and text summarization. Since previous studies on Persian keyword or
keyphrase extraction have not published their data, the field suffers from the
lack of a human extracted keyphrase dataset. In this paper, we introduce
PerKey, a corpus of 553k news articles from six Persian news websites and
agencies with relatively high quality author extracted keyphrases, which is
then filtered and cleaned to achieve higher quality keyphrases. The resulted
data was put into human assessment to ensure the quality of the keyphrases. We
also measured the performance of different supervised and unsupervised
techniques, e.g. TFIDF, MultipartiteRank, KEA, etc. on the dataset using
precision, recall, and F1-score.
- Abstract(参考訳): keyphrasesはテキストの非常に高密度な要約を提供する。
このような情報は、情報検索やテキスト要約など、多くの自然言語処理タスクで使用できる。
ペルシャ語キーワードやキーフレーズ抽出に関するこれまでの研究は、それらのデータを公表していないので、フィールドは、人間の抽出されたキーフレーズデータセットの欠如に苦しめられている。
本稿では,ペルシャの6つのニュースサイトと,比較的高品質な著者が抽出したキーフレーズから,553kのニュース記事を収集したコーパスであるperkeyを紹介する。
得られたデータは、キーフレーズの品質を保証するために人間の評価に入れられた。
また,データセット上でのTFIDF,MultipartiteRank,KEAなど,教師なしおよび教師なしのさまざまな手法の性能を精度,リコール,F1スコアを用いて測定した。
関連論文リスト
- BibRank: Automatic Keyphrase Extraction Platform Using~Metadata [0.0]
本稿では、キーフレーズデータセットを統合し、キーフレーズ抽出アルゴリズムの評価を容易にするプラットフォームを提案する。
このプラットフォームには、単語をBib形式で解析することで得られる豊富なデータセットを活用する自動キーフレーズ抽出アルゴリズムであるBibRankが含まれている。
論文 参考訳(メタデータ) (2023-10-13T14:44:34Z) - Data Augmentation for Low-Resource Keyphrase Generation [46.52115499306222]
キーフレーズ生成(英: Keyphrase generation)とは、任意の記事の内容をいくつかの有能なフレーズ(またはキーフレーズ)に要約するタスクである。
タスクの既存の作業は主に、取得が簡単ではない大規模なアノテートデータセットに依存しています。
我々は、純粋にリソース制約のあるドメインにおいて、キーフレーズの生成に対処するためのデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-05-29T09:20:34Z) - Neural Keyphrase Generation: Analysis and Evaluation [47.004575377472285]
本稿では,T5(事前学習型トランスフォーマー),CatSeq-Transformer(非事前学習型トランスフォーマー),ExHiRD(リカレントニューラルネットワーク)の3つの強力なモデルで示される傾向について検討する。
2つのキーフレーズの類似性を評価するために,SoftKeyScoreという新しいメトリクスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-27T00:10:21Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Applying Transformer-based Text Summarization for Keyphrase Generation [2.28438857884398]
キーフレーズは学術文書の検索と体系化に不可欠である。
本稿では,抽象的なテキスト要約のためのトランスフォーマーモデルについて実験する。
要約モデルはフルマッチのF1スコアとBERTスコアでキーフレーズを生成するのに非常に効果的であることを示す。
また,キーフレーズをターゲットとした順序付け戦略についても検討する。
論文 参考訳(メタデータ) (2022-09-08T13:01:52Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - Persian Keyphrase Generation Using Sequence-to-Sequence Models [1.192436948211501]
キーワードは入力テキストの要約であり、テキストで議論された主主題を提供する。
本稿では,キーフレーズ生成とニュース記事の抽出に,深いシーケンス・ツー・シーケンスモデルを用いて取り組む。
論文 参考訳(メタデータ) (2020-09-25T14:40:14Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。