論文の概要: Improving Performance of Automatic Keyword Extraction (AKE) Methods Using PoS-Tagging and Enhanced Semantic-Awareness
- arxiv url: http://arxiv.org/abs/2211.05031v2
- Date: Thu, 23 Jan 2025 14:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:32.468511
- Title: Improving Performance of Automatic Keyword Extraction (AKE) Methods Using PoS-Tagging and Enhanced Semantic-Awareness
- Title(参考訳): PoSタグと意味認識の強化による自動キーワード抽出(AKE)手法の性能向上
- Authors: Enes Altuncu, Jason R. C. Nurse, Yang Xu, Jie Guo, Shujun Li,
- Abstract要約: 本稿では, AKE法の性能向上のための, 単純だが効果的なポストプロセッシングに基づくユニバーサルアプローチを提案する。
本稿では,PoSタグ付けステップと2つの意味情報ソースから検索した単語の種類について考察する。
また,5種類のSOTA(State-of-the-art (SOTA) AKE法において,提案手法の有効性を持続的に改善し,その性能を最大100%向上させた。
- 参考スコア(独自算出の注目度): 7.993311152164658
- License:
- Abstract: Automatic keyword extraction (AKE) has gained more importance with the increasing amount of digital textual data that modern computing systems process. It has various applications in information retrieval (IR) and natural language processing (NLP), including text summarisation, topic analysis and document indexing. This paper proposes a simple but effective post-processing-based universal approach to improve the performance of any AKE methods, via an enhanced level of semantic-awareness supported by PoS-tagging. To demonstrate the performance of the proposed approach, we considered word types retrieved from a PoS-tagging step and two representative sources of semantic information - specialised terms defined in one or more context-dependent thesauri, and named entities in Wikipedia. The above three steps can be simply added to the end of any AKE methods as part of a post-processor, which simply re-evaluate all candidate keywords following some context-specific and semantic-aware criteria. For five state-of-the-art (SOTA) AKE methods, our experimental results with 17 selected datasets showed that the proposed approach improved their performances both consistently (up to 100% in terms of improved cases) and significantly (between 10.2% and 53.8%, with an average of 25.8%, in terms of F1-score and across all five methods), especially when all the three enhancement steps are used. Our results have profound implications considering the ease to apply our proposed approach to any AKE methods and to further extend it.
- Abstract(参考訳): 自動キーワード抽出(AKE)は、現代のコンピュータシステムで処理されるデジタルテキストデータの量の増加により、より重要になっている。
情報検索(IR)や自然言語処理(NLP)には、テキスト要約、トピック分析、文書インデックス作成など、さまざまな応用がある。
本稿では, PoS-tagging による意味認識の高度化による AKE 手法の性能向上のための, 単純だが効果的なポストプロセッシングに基づくユニバーサルアプローチを提案する。
提案手法の性能を示すために,PoSタグ付けステップと2つの代表的な意味情報ソースから抽出した単語タイプについて検討した。
上記の3つのステップは、後処理の一部としてAKEメソッドの最後に簡単に追加することができる。
5つの最先端(SOTA)AKE法について、17個のデータセットを用いた実験結果から,提案手法は,F1スコアで平均25.8%,および5つの手法で平均25.8%,特に3つの拡張ステップを使用する場合において,連続的に(改善事例で最大100%まで)性能を向上したことがわかった。
提案手法を任意のAKE手法に適用し,さらに拡張することの容易さを考慮して,本研究の結果は深い意味を持つ。
関連論文リスト
- MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - End-to-End Autoregressive Retrieval via Bootstrapping for Smart Reply
Systems [7.2949782290577945]
ブートストラップによって得られた(メッセージ,返信セット)ペアのデータセットから,スマートリプライタスクをエンドツーエンドに学習する新たなアプローチを検討する。
実験結果から、この手法は3つのデータセットにわたる最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2023-10-29T09:56:17Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Systematic Investigation of Strategies Tailored for Low-Resource
Settings for Sanskrit Dependency Parsing [14.416855042499945]
Sanskrit Dependency Parsing (SDP) の既存の手法は、本質的にハイブリッドである。
純粋にデータ駆動アプローチは、ラベル付きデータ間隔によるハイブリッドアプローチのパフォーマンスにマッチしない。
我々は、データ強化、シーケンシャルトランスファーラーニング、クロスランガル/モノランガル事前学習、マルチタスク学習、自己学習の5つの戦略を実験した。
提案するアンサンブルシステムは, 純粋にデータ駆動状態よりも2.8/3.9ポイント(Unlabelled Attachment Score (UAS)/Labelled Attachment Score (LAS))の絶対ゲインに優れる。
論文 参考訳(メタデータ) (2022-01-27T08:24:53Z) - Benchmark Performance of Machine And Deep Learning Based Methodologies
for Urdu Text Document Classification [4.1353427192071015]
本稿では,Urduテキスト文書分類におけるベンチマーク性能について述べる。
従来の機械学習に基づくUrduテキスト文書分類手法の性能への影響について検討する。
初めて、Urduテキスト文書分類のための様々な深層学習手法の性能を解析した。
論文 参考訳(メタデータ) (2020-03-03T05:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。