論文の概要: Towards Theme Detection in Personal Finance Questions
- arxiv url: http://arxiv.org/abs/2110.01550v1
- Date: Mon, 4 Oct 2021 16:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 18:06:00.033451
- Title: Towards Theme Detection in Personal Finance Questions
- Title(参考訳): 個人金融問題におけるテーマ検出に向けて
- Authors: John Xi Qiu, Adam Faulkner, Aysu Ezen Can
- Abstract要約: 本稿では,複数のテーマの発生を抽出するコールセンターテーマ検出手法を提案する。
一つの質問における複数のテーマの発生を捉えるために、このアプローチは質問レベルではなく、文中のクラスタをエンコードする。
我々は,このタスクに対してマイクロF1を0.46で達成し,その結果,少しうるさい場合でも,クラスタに関連付けられたラベルとトポロジ的に一致した文を含むことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Banking call centers receive millions of calls annually, with much of the
information in these calls unavailable to analysts interested in tracking new
and emerging call center trends. In this study we present an approach to call
center theme detection that captures the occurrence of multiple themes in a
question, using a publicly available corpus of StackExchange personal finance
questions, labeled by users with topic tags, as a testbed. To capture the
occurrence of multiple themes in a single question, the approach encodes and
clusters at the sentence- rather than question-level. We also present a
comparison of state-of-the-art sentence encoding models, including the SBERT
family of sentence encoders. We frame our evaluation as a multiclass
classification task and show that a simple combination of the original sentence
text, Universal Sentence Encoder, and KMeans outperforms more sophisticated
techniques that involve semantic parsing, SBERT-family models, and HDBSCAN. Our
highest performing approach achieves a Micro-F1 of 0.46 for this task and we
show that the resulting clusters, even when slightly noisy, contain sentences
that are topically consistent with the label associated with the cluster.
- Abstract(参考訳): 銀行のコールセンターは毎年何百万回もコールを受け取り、これらのコールの情報は新規および新興のコールセンタートレンドを追跡することに関心のあるアナリストには利用できない。
そこで本研究では,StackExchangeの個人財務質問の公開コーパスを,トピックタグを持つユーザによってテストベッドとしてラベル付けすることで,複数のテーマの発生を検知するコールセンターテーマ検出手法を提案する。
一つの質問における複数のテーマの発生を捉えるために、このアプローチは質問レベルではなく、文中のクラスタをエンコードする。
また,文エンコーダのSBERTファミリを含む,最先端の文エンコーダモデルの比較を行った。
多クラス分類タスクとして評価を行い、原文テキスト、Universal Sentence Encoder、KMeansの単純な組み合わせにより、意味解析、SBERT- family model、HDBSCANを含むより高度な技術より優れていることを示す。
我々は,このタスクに対してマイクロF1を0.46で達成し,その結果,少しうるさい場合でも,クラスタに関連付けられたラベルとトポロジ的に一致した文を含むことを示す。
関連論文リスト
- Retrieval-augmented Multi-label Text Classification [20.100081284294973]
マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。
Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。
本手法は,法および生物医学領域の4つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2023-05-22T14:16:23Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Providing Insights for Open-Response Surveys via End-to-End
Context-Aware Clustering [2.6094411360258185]
本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。
我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。
本フレームワークは,調査データから最も洞察に富んだ情報を抽出するプロセスを自動化することで,大規模化のコストを削減する。
論文 参考訳(メタデータ) (2022-03-02T18:24:10Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z) - Global Multiclass Classification and Dataset Construction via
Heterogeneous Local Experts [37.27708297562079]
得られたデータセットの信頼性を確保しながら、ラベルの数を最小化する方法を示す。
MNISTとCIFAR-10データセットを用いた実験では、アグリゲーション方式の良好な精度が示されている。
論文 参考訳(メタデータ) (2020-05-21T18:07:42Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。