論文の概要: MUDY: Multi-Granular Dynamic Candidate Contextualization for Unsupervised Keyphrase Extraction
- arxiv url: http://arxiv.org/abs/2605.00597v1
- Date: Fri, 01 May 2026 12:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.94139
- Title: MUDY: Multi-Granular Dynamic Candidate Contextualization for Unsupervised Keyphrase Extraction
- Title(参考訳): MUDY:教師なしキーフレーズ抽出のためのマルチグラニュラー動的候補文脈化
- Authors: Hyeongu Kang, Susik Yoon,
- Abstract要約: キーワード抽出は、文書を効果的に表現する簡潔なフレーズを自動的に識別することを目的としている。
近年, 事前学習言語モデル(PLM)を活用する手法により, 強大な意味的関連性を持つキーフレーズの抽出が大幅に改善されている。
本稿では,候補キーフレーズの多粒質的サリエンスを効果的にキャプチャする新しい文脈中心型フレームワーク MUDY を提案する。
- 参考スコア(独自算出の注目度): 10.20513220388712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Keyphrase extraction aims to automatically identify concise phrases that effectively represent the content of a document. While recent methods leveraging pre-trained language models (PLMs) have significantly improved the extraction of keyphrases with strong global semantic relevance, they often fall short in capturing the local contextual importance of keyphrases tied to specific subtopics dispersed in a document. In this paper, we propose a novel context-centric framework, MUDY, that effectively captures multi-granular contextual salience of candidate keyphrases. MUDY employs two complementary components: (1) a prompt-based scoring that estimates the generation likelihood of each candidate keyphrase, augmented with candidate-aware weighting to better reflect its local contextual importance, and (2) a self-attention-based scoring that utilizes multi-granular attention patterns from PLMs to assess candidate significance at both the document-wide and segment-specific levels. Evaluations on four real-world datasets demonstrate that MUDY outperforms state-of-the-art baselines in top-k accuracy at various cutoff thresholds. In-depth quantitative and qualitative analyses further highlight the efficacy of context-centric keyphrase extraction with multi-granular saliency. For reproducibility, the source code of MUDY is available at https://github.com/HgKang1/MUDY.
- Abstract(参考訳): キーワード抽出は、文書の内容を効果的に表現する簡潔なフレーズを自動的に識別することを目的としている。
事前学習言語モデル(PLM)を利用する最近の手法は、強いグローバルな意味的関連性を持つキーフレーズの抽出を大幅に改善しているが、文書に散在する特定のサブトピックに結びついているキーフレーズの局所的重要性を捉えるには不十分であることが多い。
本稿では,候補キーフレーズの多粒質なサリエンスを効果的にキャプチャする,新しい文脈中心のフレームワーク MUDY を提案する。
MUDYは,(1)各候補キーフレーズの生成確率を推定するプロンプトベースのスコアリングと,その局所的な文脈的重要性をよりよく反映するために候補認識重み付けを付加するプロンプトベースのスコアリング,(2) PLMからの多粒性注意パターンを利用した自己注意型スコアリング,の2つの相補的要素を用いて,文書全体およびセグメント固有レベルでの候補重要度を評価する。
4つの実世界のデータセットの評価は、MUDYが最先端のベースラインを様々なカットオフしきい値で上回っていることを示している。
深い量的および質的な分析により、多粒性塩分による文脈中心キーフレーズ抽出の有効性がさらに強調された。
MUDYのソースコードはhttps://github.com/HgKang1/MUDYで公開されている。
関連論文リスト
- SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space [11.534994345027362]
MLLM(Multimodal large language model)は、推論セグメンテーションなどの視覚言語タスクにおいて顕著な機能を示す。
そこで本研究では,従来の問合せの意味を保ちつつ,セグメンテーション性能を劣化させつつ,文法的に正しい言い回しを生成する,新しい逆の言い回しタスクを提案する。
テキストオートエンコーダの低次元意味潜在空間で動作するブラックボックスであるSPARTAを導入する。
論文 参考訳(メタデータ) (2025-10-28T14:09:05Z) - MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - SimCKP: Simple Contrastive Learning of Keyphrase Representations [36.88517357720033]
そこで本論文では,(1)文脈認識型フレーズレベルの表現からキーフレーズを抽出する抽出器・ジェネレータと,(2)生成したフレーズのスコアを対応する文書と整列させることで,文書に現れないキーフレーズを生成するリランカと,の2つの段階からなる単純なコントラスト学習フレームワークであるSimCKPを提案する。
論文 参考訳(メタデータ) (2023-10-12T11:11:54Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Unsupervised Keyphrase Extraction via Interpretable Neural Networks [27.774524511005172]
テキストのトピックを予測するのに最も有用なキーワードは重要なキーワードである。
InSPECTは、影響力のあるキーフレーズを識別するための自己説明型ニューラルネットワークフレームワークである。
InSPECTは4つの異なるデータセットから教師なし鍵抽出を行う。
論文 参考訳(メタデータ) (2022-03-15T04:30:47Z) - Importance Estimation from Multiple Perspectives for Keyphrase
Extraction [34.51718374923614]
複数視点からキーフレーズの重要性を推定する新しい手法を提案する(textitKIEMP)。
textitKIEMPは、構文的正確性を測定するチャンキングモジュール、情報の正確性をチェックするランキングモジュール、フレーズとドキュメント全体の概念整合性を判断するマッチングモジュールの3つのモジュールで、フレーズの重要性を見積もっている。
6つのベンチマークデータセットの実験結果から、textitKIEMPは、ほとんどの場合、既存の最先端のキーフレーズ抽出手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-10-19T05:48:22Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。