論文の概要: GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction
- arxiv url: http://arxiv.org/abs/2005.09740v1
- Date: Tue, 19 May 2020 20:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:26:34.444589
- Title: GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction
- Title(参考訳): GLEAKE: グローバルおよびローカルな埋め込み自動キーフレーズ抽出
- Authors: Javad Rafiei Asl, Juan M. Banda
- Abstract要約: 本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
- 参考スコア(独自算出の注目度): 1.0681288493631977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated methods for granular categorization of large corpora of text
documents have become increasingly more important with the rate scientific,
news, medical, and web documents are growing in the last few years. Automatic
keyphrase extraction (AKE) aims to automatically detect a small set of single
or multi-words from within a single textual document that captures the main
topics of the document. AKE plays an important role in various NLP and
information retrieval tasks such as document summarization and categorization,
full-text indexing, and article recommendation. Due to the lack of sufficient
human-labeled data in different textual contents, supervised learning
approaches are not ideal for automatic detection of keyphrases from the content
of textual bodies. With the state-of-the-art advances in text embedding
techniques, NLP researchers have focused on developing unsupervised methods to
obtain meaningful insights from raw datasets. In this work, we introduce Global
and Local Embedding Automatic Keyphrase Extractor (GLEAKE) for the task of AKE.
GLEAKE utilizes single and multi-word embedding techniques to explore the
syntactic and semantic aspects of the candidate phrases and then combines them
into a series of embedding-based graphs. Moreover, GLEAKE applies network
analysis techniques on each embedding-based graph to refine the most
significant phrases as a final set of keyphrases. We demonstrate the high
performance of GLEAKE by evaluating its results on five standard AKE datasets
from different domains and writing styles and by showing its superiority with
regards to other state-of-the-art methods.
- Abstract(参考訳): 近年, 学術的, ニュース的, 医学的, ウェブ的文書が増加するにつれて, 大量のテキスト文書の粒度分類の自動化がますます重要になっている。
自動キーフレーズ抽出(AKE)は、文書の主要なトピックをキャプチャする単一のテキスト文書から、単一の単語または複数ワードの小さなセットを自動的に検出することを目的としている。
AKEは、文書要約や分類、フルテキストインデックス、記事レコメンデーションといった様々なNLPおよび情報検索タスクにおいて重要な役割を果たす。
テキスト内容に十分な人間ラベルデータがないため、教師付き学習アプローチは、テキスト本体の内容からキーフレーズを自動的に検出するには理想的ではない。
テキスト埋め込み技術の最先端により、NLPの研究者は、生データセットから有意義な洞察を得るための教師なし手法の開発に注力してきた。
本稿では,AAKE の課題に対して,GLEAKE (Global and Local Embedding Automatic Keyphrase Extractor) を導入する。
gleakeはシングルワードとマルチワードの埋め込み技術を使って、候補句の構文的および意味的側面を探索し、それらを一連の埋め込みベースのグラフに結合する。
さらに、GLEAKEは各埋め込みベースのグラフにネットワーク解析技術を適用し、キーフレーズの最終セットとして最も重要なフレーズを洗練する。
GLEAKEの性能は、異なるドメインや書き方から5つの標準AKEデータセットに対して評価し、他の最先端手法に対してその優位性を示すことで実証する。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - LDKP: A Dataset for Identifying Keyphrases from Long Scientific
Documents [48.84086818702328]
テキスト文書からキーフレーズ(KP)を識別することは、自然言語処理と情報検索の基本的な課題である。
このタスクのベンチマークデータセットの大部分は、ドキュメントのタイトルと抽象情報のみを含む科学領域からのものだ。
人間が書いた要約はほとんどの文書では利用できないし、文書はほとんど常に長く、KPの比率はタイトルと抽象の限られた文脈を超えて直接見つかる。
論文 参考訳(メタデータ) (2022-03-29T08:44:57Z) - Unsupervised Keyphrase Extraction via Interpretable Neural Networks [27.774524511005172]
テキストのトピックを予測するのに最も有用なキーワードは重要なキーワードである。
InSPECTは、影響力のあるキーフレーズを識別するための自己説明型ニューラルネットワークフレームワークである。
InSPECTは4つの異なるデータセットから教師なし鍵抽出を行う。
論文 参考訳(メタデータ) (2022-03-15T04:30:47Z) - Multi-Document Keyphrase Extraction: A Literature Review and the First
Dataset [24.91326715164367]
文書の集合を記述するのに有用であるにもかかわらず、多文書キーフレーズ抽出は頻繁に研究されている。
ここでは、最初の文献レビューとタスクのための最初のデータセットであるMK-DUC-01を紹介し、新しいベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-10-03T19:10:28Z) - PerKey: A Persian News Corpus for Keyphrase Extraction and Generation [1.192436948211501]
PerKeyは、ペルシャの6つのニュースサイトから553kのニュース記事のコーパスであり、比較的高品質な著者がキーフレーズを抽出した。
データは、キーフレーズの品質を保証するために、人間の評価に入れられた。
論文 参考訳(メタデータ) (2020-09-25T14:36:41Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。