論文の概要: Unsupervised Key-phrase Extraction and Clustering for Classification
Scheme in Scientific Publications
- arxiv url: http://arxiv.org/abs/2101.09990v2
- Date: Mon, 8 Feb 2021 20:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 05:56:33.816633
- Title: Unsupervised Key-phrase Extraction and Clustering for Classification
Scheme in Scientific Publications
- Title(参考訳): 科学出版における分類体系のための教師なしキーフレーズ抽出とクラスタリング
- Authors: Xiajing Li, Marios Daoutis
- Abstract要約: 本稿では,システムマッピング (SM) とシステムレビュー (SR) プロセスの自動化の可能性について検討する。
キーフレーズは教師なしの方法で科学文書から抽出され、対応する分類体系を構築するために使用される。
また、クラスタリングを使って関連するキーフレーズをグループ化する方法についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several methods have been explored for automating parts of Systematic Mapping
(SM) and Systematic Review (SR) methodologies. Challenges typically evolve
around the gaps in semantic understanding of text, as well as lack of domain
and background knowledge necessary to bridge that gap. In this paper we
investigate possible ways of automating parts of the SM/SR process, i.e. that
of extracting keywords and key-phrases from scientific documents using
unsupervised methods, which are then used as a basis to construct the
corresponding Classification Scheme using semantic key-phrase clustering
techniques. Specifically, we explore the effect of ensemble scores measure in
key-phrase extraction, we explore semantic network based word embedding in
embedding representation of phrase semantics and finally we also explore how
clustering can be used to group related key-phrases. The evaluation is
conducted on a dataset of publications pertaining the domain of "Explainable
AI" which we constructed using standard publicly available digital libraries
and sets of indexing terms (keywords). Results shows that: ensemble ranking
score does improve the key-phrase extraction performance. Semantic-network
based word embedding based on the ConceptNet Semantic Network has similar
performance with contextualized word embedding, however the former are
computationally more efficient. Finally Semantic key-phrase clustering at
term-level can group similar terms together that can be suitable for
classification scheme.
- Abstract(参考訳): Systematic Mapping (SM) と Systematic Review (SR) の方法論の一部を自動化するいくつかの方法が検討されている。
問題は通常、テキストの意味的理解のギャップと、そのギャップを埋めるために必要なドメイン知識とバックグラウンド知識の欠如を中心に進化します。
本稿では,SM/SRプロセスの一部を自動化する可能性について検討する。
キーワードやキーフレーズを、教師なしの方法で科学文書から抽出し、セマンティックキーフレーズクラスタリング技術を用いて対応する分類スキームを構築するための基礎として使用される。
具体的には,キーフレーズ抽出におけるアンサンブルスコア尺度の効果を探索し,句意味の埋め込み表現における意味ネットワークに基づく単語埋め込みを探索し,最後に,クラスタリングを用いて関連するキーフレーズをグループ化する方法について検討する。
この評価は、標準の公開デジタルライブラリと索引付け用語(キーワード)を用いて構築した「説明可能なAI」のドメインに関する出版物のデータセットに基づいて行われる。
その結果、アンサンブルランキングスコアはキーフレーズ抽出性能を向上させます。
ConceptNet Semantic Networkに基づくセマンティックネットワークベースの単語埋め込みは、コンテキスト化された単語埋め込みと同じようなパフォーマンスを有するが、前者は計算効率が高い。
最後に、項レベルのセマンティックキーフレーズクラスタリングは、分類スキームに適した類似用語をまとめることができる。
関連論文リスト
- Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - A Process for Topic Modelling Via Word Embeddings [0.0]
この研究は、単語の埋め込み、次元の縮小、クラスタリングに基づくアルゴリズムを組み合わせる。
目的は、未分類テキストの集合からトピックを取得することである。
論文 参考訳(メタデータ) (2023-10-06T15:10:35Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - UniKeyphrase: A Unified Extraction and Generation Framework for
Keyphrase Prediction [20.26899340581431]
キーワード予測タスクは、与えられたドキュメントのメインアイデアを要約できるいくつかのキーフレーズを予測することを目的としている。
メインストリームKP法は、純粋に生成的アプローチと、抽出と生成を伴う統合モデルに分類することができる。
キーフレーズの抽出と生成を共同で学習する新しいエンドツーエンド学習フレームワークUniKeyphraseを提案する。
論文 参考訳(メタデータ) (2021-06-09T07:09:51Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - WSRNet: Joint Spotting and Recognition of Handwritten Words [38.212002652391]
提案するネットワークは、非リカレントCTCブランチとSeq2Seqブランチで構成されており、Autoencodingモジュールでさらに拡張されている。
本稿では、これらの表現をさらに2項化して処理する方法と、コンパクトで高効率な記述子を提供するリトレーニングスキームを示す。
論文 参考訳(メタデータ) (2020-08-17T06:22:05Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。