論文の概要: Theme-driven Keyphrase Extraction to Analyze Social Media Discourse
- arxiv url: http://arxiv.org/abs/2301.11508v2
- Date: Sun, 28 May 2023 20:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 01:55:16.166301
- Title: Theme-driven Keyphrase Extraction to Analyze Social Media Discourse
- Title(参考訳): テーマ駆動型キーフレーズ抽出によるソーシャルメディア談話の分析
- Authors: William Romano, Omar Sharif, Madhusudan Basak, Joseph Gatto, and Sarah
Preum
- Abstract要約: 本稿では,ソーシャルメディアに適したテーマ駆動キーフレーズ抽出フレームワークを提案する。
テーマ駆動キーフレーズ抽出のための新しいデータ収集とキュレーションフレームワークを開発した。
MOUD-KeyphraseはRedditコミュニティから人間に注釈を付けたキーフレーズからなる最初のデータセットです。
- 参考スコア(独自算出の注目度): 3.2365983191405103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media platforms are vital resources for sharing self-reported health
experiences, offering rich data on various health topics. Despite advancements
in Natural Language Processing (NLP) enabling large-scale social media data
analysis, a gap remains in applying keyphrase extraction to health-related
content. Keyphrase extraction is used to identify salient concepts in social
media discourse without being constrained by predefined entity classes. This
paper introduces a theme-driven keyphrase extraction framework tailored for
social media, a pioneering approach designed to capture clinically relevant
keyphrases from user-generated health texts. Themes are defined as broad
categories determined by the objectives of the extraction task. We formulate
this novel task of theme-driven keyphrase extraction and demonstrate its
potential for efficiently mining social media text for the use case of
treatment for opioid use disorder. This paper leverages qualitative and
quantitative analysis to demonstrate the feasibility of extracting actionable
insights from social media data and efficiently extracting keyphrases using
minimally supervised NLP models. Our contributions include the development of a
novel data collection and curation framework for theme-driven keyphrase
extraction and the creation of MOUD-Keyphrase, the first dataset of its kind
comprising human-annotated keyphrases from a Reddit community. We also identify
the scope of minimally supervised NLP models to extract keyphrases from social
media data efficiently. Lastly, we found that a large language model (ChatGPT)
outperforms unsupervised keyphrase extraction models, and we evaluate its
efficacy in this task.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、自己報告された健康体験を共有する上で重要なリソースであり、さまざまな健康トピックに関する豊富なデータを提供する。
大規模ソーシャルメディアデータ分析を可能にする自然言語処理(nlp)の進歩にもかかわらず、健康関連コンテンツにキーフレーズ抽出を適用することにはギャップがある。
キーワード抽出は、定義済みのエンティティクラスに制約されることなく、ソーシャルメディアの会話における健全な概念を特定するために使用される。
本稿では,ユーザが生成した健康テキストから臨床に関連のあるキーフレーズを捉えるための先駆的アプローチとして,ソーシャルメディア用にカスタマイズされたテーマ駆動キーフレーズ抽出フレームワークを提案する。
テーマは抽出タスクの目的によって決定される広いカテゴリとして定義される。
テーマ駆動型キーフレーズ抽出の新たな課題を定式化し,オピオイド使用障害の治療にソーシャルメディアテキストを効率的にマイニングする可能性を示す。
本稿では,ソーシャルメディアデータから実行可能な洞察を抽出し,最小教師付きNLPモデルを用いてキーフレーズを効率的に抽出する可能性を示す。
我々の貢献は、テーマ駆動型キーフレーズ抽出のための新しいデータ収集とキュレーションフレームワークの開発と、Redditコミュニティから人間注釈付きキーフレーズからなるMOUD-キーフレーズの作成である。
また、ソーシャルメディアデータからキーフレーズを効率的に抽出するための最小教師付きNLPモデルのスコープも同定する。
最後に,大規模言語モデル(chatgpt)が教師なしキーフレーズ抽出モデルよりも優れており,その効果を評価した。
関連論文リスト
- MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Unsupervised Keyphrase Extraction via Interpretable Neural Networks [27.774524511005172]
テキストのトピックを予測するのに最も有用なキーワードは重要なキーワードである。
InSPECTは、影響力のあるキーフレーズを識別するための自己説明型ニューラルネットワークフレームワークである。
InSPECTは4つの異なるデータセットから教師なし鍵抽出を行う。
論文 参考訳(メタデータ) (2022-03-15T04:30:47Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - UniKeyphrase: A Unified Extraction and Generation Framework for
Keyphrase Prediction [20.26899340581431]
キーワード予測タスクは、与えられたドキュメントのメインアイデアを要約できるいくつかのキーフレーズを予測することを目的としている。
メインストリームKP法は、純粋に生成的アプローチと、抽出と生成を伴う統合モデルに分類することができる。
キーフレーズの抽出と生成を共同で学習する新しいエンドツーエンド学習フレームワークUniKeyphraseを提案する。
論文 参考訳(メタデータ) (2021-06-09T07:09:51Z) - Persian Keyphrase Generation Using Sequence-to-Sequence Models [1.192436948211501]
キーワードは入力テキストの要約であり、テキストで議論された主主題を提供する。
本稿では,キーフレーズ生成とニュース記事の抽出に,深いシーケンス・ツー・シーケンスモデルを用いて取り組む。
論文 参考訳(メタデータ) (2020-09-25T14:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。