論文の概要: CTM -- A Model for Large-Scale Multi-View Tweet Topic Classification
- arxiv url: http://arxiv.org/abs/2205.01603v1
- Date: Tue, 3 May 2022 16:32:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 14:01:45.674550
- Title: CTM -- A Model for Large-Scale Multi-View Tweet Topic Classification
- Title(参考訳): ctm --大規模マルチビューツイートトピック分類のためのモデル
- Authors: Vivek Kulkarni, Kenny Leung, Aria Haghighi
- Abstract要約: 本稿では,300ドルのトピックを対象とするトピック空間をサポートする新しいニューラルモデルCTMを提案する。
提案手法は,他の手法に優れた性能を付与することにより,ツイートを大規模にトピックに分類する効果的な方法を提供する。
- 参考スコア(独自算出の注目度): 3.8566204000714315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically associating social media posts with topics is an important
prerequisite for effective search and recommendation on many social media
platforms. However, topic classification of such posts is quite challenging
because of (a) a large topic space (b) short text with weak topical cues, and
(c) multiple topic associations per post. In contrast to most prior work which
only focuses on post classification into a small number of topics ($10$-$20$),
we consider the task of large-scale topic classification in the context of
Twitter where the topic space is $10$ times larger with potentially multiple
topic associations per Tweet. We address the challenges above by proposing a
novel neural model, CTM that (a) supports a large topic space of $300$ topics
and (b) takes a holistic approach to tweet content modeling -- leveraging
multi-modal content, author context, and deeper semantic cues in the Tweet. Our
method offers an effective way to classify Tweets into topics at scale by
yielding superior performance to other approaches (a relative lift of
$\mathbf{20}\%$ in median average precision score) and has been successfully
deployed in production at Twitter.
- Abstract(参考訳): ソーシャルメディアの投稿とトピックを自動的に関連付けることは、多くのソーシャルメディアプラットフォームで効果的な検索と推薦のための重要な前提条件である。
しかし、そのようなポストのトピック分類は非常に難しい。
a)大きな話題空間
(b)弱局所的手がかりのある短文、及び
(c)投稿毎の複数の話題関連
ポスト分類のみを少数のトピック($10$-$20$)に限定した以前のほとんどの作業とは対照的に、Twitterのコンテキストにおいて、トピック空間が10ドル規模で、つぶやきあたりの複数のトピック関連付けが考えられるという、大規模なトピック分類の課題について検討する。
上記の課題に対処するために,新しいニューラルモデルであるctmを提案する。
(a)300ドルのトピックからなる大きなトピックスペースをサポートします。
b) ツイート内のマルチモーダルコンテンツ、著者コンテキスト、より深いセマンティックキューを活用する。
提案手法は,他の手法(平均精度スコアの中央値で$\mathbf{20}\%$)に対して優れたパフォーマンスを与えることで,トピックを大規模に分類する効果的な方法を提供し,twitterで運用に成功している。
関連論文リスト
- Bundle Fragments into a Whole: Mining More Complete Clusters via Submodular Selection of Interesting webpages for Web Topic Detection [49.8035161337388]
最先端のソリューションは、まず、Webページを多数の粒度トピック候補にまとめることである。
ホットトピックは、その面白さを推定することによってさらに特定される。
本稿では,フラグメントからより完全なホットトピックを抽出するためのバンドル・リフィニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T00:46:31Z) - Twitter Topic Classification [15.306383757213956]
我々は、ツイートトピック分類に基づく新しいタスクを提案し、関連する2つのデータセットをリリースする。
ソーシャルメディアで最も重要な議論点をカバーする幅広いトピックについて、トレーニングとテストデータを提供しています。
タスク上で,現在の汎用言語モデルとドメイン固有言語モデルの定量的評価と分析を行う。
論文 参考訳(メタデータ) (2022-09-20T16:13:52Z) - Short Text Topic Modeling: Application to tweets about Bitcoin [0.0]
トピックモデルは、文書のコーパスから"トピック"を抽出することを目的とした確率モデルである。
3つのトピックモデルをトレーニングし、そのアウトプットをいくつかのスコアで評価する。
また,抽出したトピックの具体的応用を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:53:47Z) - Learning Stance Embeddings from Signed Social Graphs [7.202476284052426]
ソーシャルネットワーク分析における重要な課題は、大量のトピックについて、グラフ内の人々の位置や姿勢を理解することである。
本研究では,サイン付きソーシャルグラフにおける各ユーザとトピックの埋め込みを共同で学習するStance Embeddings Modelを提案する。
SEMはコールドスタートトピックのスタンス検出を行うことができ、ユーザのエンゲージメントを観察していないトピックに対するスタンスを予測できる。
論文 参考訳(メタデータ) (2022-01-27T17:22:49Z) - Multi-Class and Automated Tweet Categorization [0.0]
この研究は、ツイートのカテゴリーをテキストから検出することを目的としている。
ツイートは、テキストマイニングまたは自然言語処理(NLP)と機械学習(ML)技術を使用して、12の特定カテゴリに分類される。
最高のアンサンブルモデルであるグラディエント・ブースティングはAUCのスコアが85%に達した。
論文 参考訳(メタデータ) (2021-11-13T14:28:47Z) - Towards Theme Detection in Personal Finance Questions [0.0]
本稿では,複数のテーマの発生を抽出するコールセンターテーマ検出手法を提案する。
一つの質問における複数のテーマの発生を捉えるために、このアプローチは質問レベルではなく、文中のクラスタをエンコードする。
我々は,このタスクに対してマイクロF1を0.46で達成し,その結果,少しうるさい場合でも,クラスタに関連付けられたラベルとトポロジ的に一致した文を含むことを示す。
論文 参考訳(メタデータ) (2021-10-04T16:44:16Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Response Selection for Multi-Party Conversations with Dynamic Topic
Tracking [63.15158355071206]
我々は、応答と関連する会話コンテキストの間のトピックを一致させるために、動的トピック追跡タスクとして応答選択をフレーム化する。
本研究では,大規模な事前学習モデルによる効率的な符号化を支援する新しいマルチタスク学習フレームワークを提案する。
DSTC-8 Ubuntu IRCデータセットの実験結果は、応答選択とトピックのアンタングル化タスクにおける最先端の結果を示している。
論文 参考訳(メタデータ) (2020-10-15T14:21:38Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。