論文の概要: An NLP approach to quantify dynamic salience of predefined topics in a
text corpus
- arxiv url: http://arxiv.org/abs/2108.07345v1
- Date: Mon, 16 Aug 2021 21:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:23:35.428828
- Title: An NLP approach to quantify dynamic salience of predefined topics in a
text corpus
- Title(参考訳): テキストコーパスにおける予め定義されたトピックの動的サリエンスを定量化するNLP手法
- Authors: A. Bock, A. Palladino, S. Smith-Heisters, I. Boardman, E. Pellegrini,
E.J. Bienenstock, A. Valenti
- Abstract要約: 我々は自然言語処理技術を用いて、テキストの大規模なコーパスを通して、ある定義済みの関心トピックの集合が時間とともにどのように変化するかの定量化を行う。
事前定義されたトピックが与えられたら、それらのトピックにマップされ、通常のベースラインから逸脱する利用パターンを持つ、用語の集合(n-gram)を識別してランク付けできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of news media available online simultaneously presents a
valuable resource and significant challenge to analysts aiming to profile and
understand social and cultural trends in a geographic location of interest.
While an abundance of news reports documenting significant events, trends, and
responses provides a more democratized picture of the social characteristics of
a location, making sense of an entire corpus to extract significant trends is a
steep challenge for any one analyst or team. Here, we present an approach using
natural language processing techniques that seeks to quantify how a set of
pre-defined topics of interest change over time across a large corpus of text.
We found that, given a predefined topic, we can identify and rank sets of
terms, or n-grams, that map to those topics and have usage patterns that
deviate from a normal baseline. Emergence, disappearance, or significant
variations in n-gram usage present a ground-up picture of a topic's dynamic
salience within a corpus of interest.
- Abstract(参考訳): オンラインニュースメディアの普及は、地理的興味のある場所における社会的・文化的トレンドをプロファイル化し理解することを目的としたアナリストにとって、貴重な資源と重要な課題を同時に提示する。
重要な出来事、傾向、回答を文書化した多くのニュースレポートが、ある場所の社会的特徴をより民主的に表現する一方で、重要なトレンドを抽出するコーパス全体を理解することは、一人のアナリストやチームにとって大きな課題である。
本稿では, 自然言語処理技術を用いて, テキストの大規模なコーパスを通じて, 関心トピックの集合が時間とともにどのように変化するかを定量化する手法を提案する。
事前に定義されたトピックを考慮すれば、それらのトピックにマップし、通常のベースラインから逸脱する利用パターンを持つ、用語の集合(n-gram)を識別し、ランク付けすることができます。
n-gramの使用の創発、消失、あるいは顕著な変化は、関心事のコーパス内のトピックのダイナミックなサリエンスを示す。
関連論文リスト
- Time Series Analysis of Key Societal Events as Reflected in Complex
Social Media Data Streams [0.9790236766474201]
本研究では,ニッチなソーシャルメディアプラットフォームであるGABと,確立されたメッセージングサービスであるTelegramの物語進化について検討する。
我々のアプローチは、複数のソーシャルメディアドメインを調査し、他の方法では見えない重要な情報を排除するための新しいモードである。
主な知見は,(1) 時間線をデコンストラクトして, 解釈を改善するための有用なデータ機能を提供すること,(2) 一般化の基盤を提供する方法論を適用すること,である。
論文 参考訳(メタデータ) (2024-03-11T18:33:56Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Time-aware topic identification in social media with pre-trained
language models: A case study of electric vehicles [1.2891210250935146]
事前学習言語モデルを用いた時間認識型トピック識別手法を提案する。
提案手法は,言語モデルを用いて時間変化トピックを追跡する動的関数と,将来有望なトピックを探索する出現スコア関数の2段階からなる。
論文 参考訳(メタデータ) (2022-10-11T04:50:10Z) - Twitter Topic Classification [15.306383757213956]
我々は、ツイートトピック分類に基づく新しいタスクを提案し、関連する2つのデータセットをリリースする。
ソーシャルメディアで最も重要な議論点をカバーする幅広いトピックについて、トレーニングとテストデータを提供しています。
タスク上で,現在の汎用言語モデルとドメイン固有言語モデルの定量的評価と分析を行う。
論文 参考訳(メタデータ) (2022-09-20T16:13:52Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Enhance Topics Analysis based on Keywords Properties [0.0]
本稿では,最も情報性の高いトピックを選択可能なキーワード特性に基づく特異度スコアを示す。
実験では,最近の文献におけるコヒーレンススコアに基づいて,様々な要因のトピックモデリング結果を,解よりもはるかに低い情報損失で圧縮できることを示した。
論文 参考訳(メタデータ) (2022-03-09T15:10:12Z) - A Case Study and Qualitative Analysis of Simple Cross-Lingual Opinion
Mining [0.0]
本稿では,複数の言語をシミュレート可能な感情分析を用いた1つのトピックモデルの構築手法を提案する。
このモデルを,特定のドメイン,すなわち有機食品のユーザコメントに応用する。
安定・ドメイン関連トピックの比率が高く,トピックとその内容間の有意義な関係,ソーシャルメディア文書の解釈可能な表現が得られている。
論文 参考訳(メタデータ) (2021-11-03T14:49:50Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。