論文の概要: Improving Performance of Automatic Keyword Extraction (AKE) Methods
Using PoS-Tagging and Enhanced Semantic-Awareness
- arxiv url: http://arxiv.org/abs/2211.05031v1
- Date: Wed, 9 Nov 2022 17:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:13:53.725126
- Title: Improving Performance of Automatic Keyword Extraction (AKE) Methods
Using PoS-Tagging and Enhanced Semantic-Awareness
- Title(参考訳): PoSタグと意味認識の強化による自動キーワード抽出(AKE)手法の性能向上
- Authors: Enes Altuncu, Jason R.C. Nurse, Yang Xu, Jie Guo, Shujun Li
- Abstract要約: 本稿では, AKE法の性能向上のための, 単純だが効果的なポストプロセッシングに基づくユニバーサルアプローチを提案する。
本稿では,PoSタグ付けステップと2つの意味情報ソースから検索した単語の種類について考察する。
5つの最先端(SOTA)AKE法について、17個のデータセットを用いた実験結果から、提案手法は、F1スコアおよび全F1スコアで平均25.8%の10.2%と53.8%の双方で、一貫して(改善率で最大100%まで)、その性能を向上していることがわかった。
- 参考スコア(独自算出の注目度): 8.823779489420772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic keyword extraction (AKE) has gained more importance with the
increasing amount of digital textual data that modern computing systems
process. It has various applications in information retrieval (IR) and natural
language processing (NLP), including text summarisation, topic analysis and
document indexing. This paper proposes a simple but effective
post-processing-based universal approach to improve the performance of any AKE
methods, via an enhanced level of semantic-awareness supported by PoS-tagging.
To demonstrate the performance of the proposed approach, we considered word
types retrieved from a PoS-tagging step and two representative sources of
semantic information -- specialised terms defined in one or more
context-dependent thesauri, and named entities in Wikipedia. The above three
steps can be simply added to the end of any AKE methods as part of a
post-processor, which simply re-evaluate all candidate keywords following some
context-specific and semantic-aware criteria. For five state-of-the-art (SOTA)
AKE methods, our experimental results with 17 selected datasets showed that the
proposed approach improved their performances both consistently (up to 100\% in
terms of improved cases) and significantly (between 10.2\% and 53.8\%, with an
average of 25.8\%, in terms of F1-score and across all five methods),
especially when all the three enhancement steps are used. Our results have
profound implications considering the ease to apply our proposed approach to
any AKE methods and to further extend it.
- Abstract(参考訳): 自動キーワード抽出(AKE)は、現代のコンピュータシステムで処理されるデジタルテキストデータの量の増加により、より重要になっている。
情報検索(IR)や自然言語処理(NLP)には、テキスト要約、トピック分析、文書インデックス作成など、さまざまな応用がある。
本稿では, PoS-tagging による意味認識の高度化による AKE 手法の性能向上のための, 単純だが効果的なポストプロセッシング方式を提案する。
提案手法の性能を示すために,pos-taggingステップから得られた単語タイプと,1つ以上の文脈依存のthesauriで定義された2つの意味情報の典型的情報源,およびwikipediaで名前付きエンティティについて検討した。
上記の3つのステップは、ポストプロセッサの一部として、任意の ake メソッドの最後に簡単に追加することができる。
sota法(state-of-the-art-ake)の5つのake法について,提案手法は17のデータセットを用いた実験結果から,3つの強化ステップがすべて使用される場合において,提案手法が一貫して(10.2\%,53.8\%,平均25.8\%,平均25.8\%)の性能向上を示した。
提案手法を任意のAKE手法に適用し,さらに拡張することの容易さを考慮して,本研究の結果は深い意味を持つ。
関連論文リスト
- MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - End-to-End Autoregressive Retrieval via Bootstrapping for Smart Reply
Systems [7.2949782290577945]
ブートストラップによって得られた(メッセージ,返信セット)ペアのデータセットから,スマートリプライタスクをエンドツーエンドに学習する新たなアプローチを検討する。
実験結果から、この手法は3つのデータセットにわたる最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-10-29T09:56:17Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Systematic Investigation of Strategies Tailored for Low-Resource
Settings for Sanskrit Dependency Parsing [14.416855042499945]
Sanskrit Dependency Parsing (SDP) の既存の手法は、本質的にハイブリッドである。
純粋にデータ駆動アプローチは、ラベル付きデータ間隔によるハイブリッドアプローチのパフォーマンスにマッチしない。
我々は、データ強化、シーケンシャルトランスファーラーニング、クロスランガル/モノランガル事前学習、マルチタスク学習、自己学習の5つの戦略を実験した。
提案するアンサンブルシステムは, 純粋にデータ駆動状態よりも2.8/3.9ポイント(Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインに優れる。
論文 参考訳(メタデータ) (2022-01-27T08:24:53Z) - Benchmark Performance of Machine And Deep Learning Based Methodologies
for Urdu Text Document Classification [4.1353427192071015]
本稿では,Urduテキスト文書分類におけるベンチマーク性能について述べる。
従来の機械学習に基づくUrduテキスト文書分類手法の性能への影響について検討する。
初めて、Urduテキスト文書分類のための様々な深層学習手法の性能を解析した。
論文 参考訳(メタデータ) (2020-03-03T05:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。