論文の概要: Keywords lie far from the mean of all words in local vector space
- arxiv url: http://arxiv.org/abs/2008.09513v1
- Date: Fri, 21 Aug 2020 14:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:37:39.407151
- Title: Keywords lie far from the mean of all words in local vector space
- Title(参考訳): キーワードは局所ベクトル空間におけるすべての単語の平均から遠く離れている
- Authors: Eirini Papagiannopoulou, Grigorios Tsoumakas and Apostolos N.
Papadopoulos
- Abstract要約: 本研究では,文書の単語の主分布を局所的な単語ベクトル表現を用いてモデル化することにより,テキスト文書からキーワードを検出する異なる経路に従う。
我々は,強いベースラインと最先端の教師なしキーワード抽出手法と比較して,提案手法の高性能性を確認した。
- 参考スコア(独自算出の注目度): 5.040463208115642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword extraction is an important document process that aims at finding a
small set of terms that concisely describe a document's topics. The most
popular state-of-the-art unsupervised approaches belong to the family of the
graph-based methods that build a graph-of-words and use various centrality
measures to score the nodes (candidate keywords). In this work, we follow a
different path to detect the keywords from a text document by modeling the main
distribution of the document's words using local word vector representations.
Then, we rank the candidates based on their position in the text and the
distance between the corresponding local vectors and the main distribution's
center. We confirm the high performance of our approach compared to strong
baselines and state-of-the-art unsupervised keyword extraction methods, through
an extended experimental study, investigating the properties of the local
representations.
- Abstract(参考訳): キーワード抽出は、文書のトピックを簡潔に記述する用語の小さなセットを見つけることを目的とした重要な文書プロセスである。
最も一般的な最先端の教師なしアプローチは、graph-of-wordsを構築し、ノード(候補キーワード)をスコア付けするために様々な集中性尺度を使用するグラフベースの手法のファミリーに属する。
本研究では,文書の単語の主分布を局所的な単語ベクトル表現を用いてモデル化することにより,テキスト文書からキーワードを検出する異なる経路に従う。
次に,テキスト中のそれらの位置と,対応する局所ベクトルと主分布中心との間の距離に基づいて,候補をランク付けする。
提案手法は, 局所表現の特性を検証し, 高精度なベースラインと最先端の教師なしキーワード抽出手法と比較して高い性能を実証する。
関連論文リスト
- Unsupervised extraction of local and global keywords from a single text [0.0]
テキストからキーワードを抽出する非教師付きコーパス非依存手法を提案する。
それは、単語の空間分布と、単語のランダムな置換に対するこの分布の応答に基づいている。
論文 参考訳(メタデータ) (2023-07-26T07:36:25Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Keyphrase Extraction Using Neighborhood Knowledge Based on Word
Embeddings [17.198907789163123]
我々は、単語埋め込みを背景知識として活用して、単語間グラフに意味情報を加えることにより、グラフベースのランキングモデルを強化する。
提案手法は,確立されたベンチマークデータセットを用いて評価し,単語の埋め込み近傍情報によりモデル性能が向上することを示す。
論文 参考訳(メタデータ) (2021-11-13T21:48:18Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - FRAKE: Fusional Real-time Automatic Keyword Extraction [1.332091725929965]
キーワード抽出は、テキストの主要な概念を最もよく表す単語やフレーズを識別する。
グラフ中心性特徴とテキスト特徴の2つのモデルを組み合わせたアプローチを採用している。
論文 参考訳(メタデータ) (2021-04-10T18:30:17Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。