論文の概要: Keyphrase Extraction Using Neighborhood Knowledge Based on Word
Embeddings
- arxiv url: http://arxiv.org/abs/2111.07198v1
- Date: Sat, 13 Nov 2021 21:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 14:30:49.536532
- Title: Keyphrase Extraction Using Neighborhood Knowledge Based on Word
Embeddings
- Title(参考訳): 単語埋め込みに基づく近隣知識を用いたキーワード抽出
- Authors: Yuchen Liang and Mohammed J. Zaki
- Abstract要約: 我々は、単語埋め込みを背景知識として活用して、単語間グラフに意味情報を加えることにより、グラフベースのランキングモデルを強化する。
提案手法は,確立されたベンチマークデータセットを用いて評価し,単語の埋め込み近傍情報によりモデル性能が向上することを示す。
- 参考スコア(独自算出の注目度): 17.198907789163123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyphrase extraction is the task of finding several interesting phrases in a
text document, which provide a list of the main topics within the document.
Most existing graph-based models use co-occurrence links as cohesion indicators
to model the relationship of syntactic elements. However, a word may have
different forms of expression within the document, and may have several
synonyms as well. Simply using co-occurrence information cannot capture this
information. In this paper, we enhance the graph-based ranking model by
leveraging word embeddings as background knowledge to add semantic information
to the inter-word graph. Our approach is evaluated on established benchmark
datasets and empirical results show that the word embedding neighborhood
information improves the model performance.
- Abstract(参考訳): キーワード抽出(英: Keyphrase extract)は、文書内の主要なトピックのリストを提供する、テキスト文書中のいくつかの興味深いフレーズを見つけるタスクである。
既存のグラフベースのモデルの多くは、共起リンクを結合指標として使用し、構文要素の関係をモデル化している。
しかし、ある単語は文書内で異なる表現形式を持ち、いくつかの同義語を持つこともある。
単に共起情報を使うことは、この情報をキャプチャできない。
本稿では、単語埋め込みを背景知識として活用し、単語間グラフに意味情報を加えることにより、グラフベースのランキングモデルを強化する。
提案手法は,確立されたベンチマークデータセットを用いて評価し,単語の埋め込み近傍情報によりモデル性能が向上することを示す。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Heterogeneous Graph Neural Networks for Keyphrase Generation [13.841525616800908]
本稿では,関連する参照から明示的な知識を抽出するグラフベースの新しい手法を提案する。
我々のモデルはまず、あらかじめ定義されたインデックスから、ソースドキュメントに似た文書とキーワードのペアを参照として検索する。
復号処理を導くために、ソース文書と参照の両方から適切な単語を直接コピーする階層的注目・複写機構を導入する。
論文 参考訳(メタデータ) (2021-09-10T07:17:07Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Leveraging Graph to Improve Abstractive Multi-Document Summarization [50.62418656177642]
我々は、文書のよく知られたグラフ表現を活用することができる、抽象的多文書要約(MDS)モデルを開発する。
本モデルでは,長い文書の要約に欠かせない文書間関係を捉えるために,文書の符号化にグラフを利用する。
また,このモデルでは,要約生成プロセスの導出にグラフを利用することが可能であり,一貫性と簡潔な要約を生成するのに有用である。
論文 参考訳(メタデータ) (2020-05-20T13:39:47Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。