論文の概要: TopicsRanksDC: Distance-based Topic Ranking applied on Two-Class Data
- arxiv url: http://arxiv.org/abs/2105.07826v1
- Date: Mon, 17 May 2021 13:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 21:55:16.917252
- Title: TopicsRanksDC: Distance-based Topic Ranking applied on Two-Class Data
- Title(参考訳): TopicsRanksDC:2クラスデータに適用される距離ベースのトピックランキング
- Authors: Malik Yousef, Jamal Al Qundus, Silvio Peikert, and Adrian Paschke
- Abstract要約: 各トピックが生成する2つのクラスタ間の距離に基づいて,トピックランキングのためのトピックランクsdcという新しいアプローチを提案する。
このアプローチは,各トピックを2つのクラスを分離する重要性によってランク付けする。
topicsranksdcツールの結果は、検索エンジンが関連するトピックを提案できるように、将来の作業に有望である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a novel approach named TopicsRanksDC for topics
ranking based on the distance between two clusters that are generated by each
topic. We assume that our data consists of text documents that are associated
with two-classes. Our approach ranks each topic contained in these text
documents by its significance for separating the two-classes. Firstly, the
algorithm detects topics using Latent Dirichlet Allocation (LDA). The words
defining each topic are represented as two clusters, where each one is
associated with one of the classes. We compute four distance metrics, Single
Linkage, Complete Linkage, Average Linkage and distance between the centroid.
We compare the results of LDA topics and random topics. The results show that
the rank for LDA topics is much higher than random topics. The results of
TopicsRanksDC tool are promising for future work to enable search engines to
suggest related topics.
- Abstract(参考訳): 本稿では,トピック毎に生成される2つのクラスタ間の距離に基づいて,トピックのランク付けを行うTopicsRanksDCという新しいアプローチを提案する。
我々のデータは2つのクラスに関連付けられた文書から成り立っていると仮定する。
本手法は,これらの文書に含まれる各トピックを2つのクラスを分離する意義から分類する。
まず,LDA(Latent Dirichlet Allocation)を用いてトピックを検出する。
各トピックを定義する単語は2つのクラスタとして表現され、それぞれがクラスの1つに関連付けられている。
4つの距離メトリクス、Single Linkage、Completle Linkage、Average Linkage、そしてCentroid間の距離を計算する。
LDAトピックとランダムトピックの結果を比較した。
その結果,LDAトピックのランクはランダムトピックよりもはるかに高いことがわかった。
topicsranksdcツールの結果は、検索エンジンが関連するトピックを提案できるように、将来の作業に有望である。
関連論文リスト
- Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - JADS: A Framework for Self-supervised Joint Aspect Discovery and Summarization [3.992091862806936]
私たちのソリューションはトピックの発見と要約をひとつのステップに統合します。
テキストデータから,JADS(Joint Aspect Discovery and Summarization Algorithm)が入力からアスペクトを検出する。
提案手法は,地上の真理と高いセマンティックアライメントを実現し,現実的である。
論文 参考訳(メタデータ) (2024-05-28T23:01:57Z) - Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment [0.0]
本稿では,3つの大規模言語モデル(LLM)によって生成されたトピックアノテーション(ChatGPT-3.5, GoogleBard, GoogleGemini)を用いてメタデータの充実を支援する手法を提案する。
文脈情報(データセット記述)が分類結果に与える影響を評価する。
論文 参考訳(メタデータ) (2024-03-01T10:01:36Z) - Hierarchical Multi-Label Classification of Scientific Documents [47.293189105900524]
我々はSciHTCと呼ばれる科学論文の階層的多ラベルテキスト分類のための新しいデータセットを提案する。
このデータセットは、ACM CCSツリーから186,160の論文と1,233のカテゴリを含んでいる。
我々の最良のモデルでは、マクロF1スコアが34.57%に達し、このデータセットが大きな研究機会を提供することを示す。
論文 参考訳(メタデータ) (2022-11-05T04:12:57Z) - Twitter Topic Classification [15.306383757213956]
我々は、ツイートトピック分類に基づく新しいタスクを提案し、関連する2つのデータセットをリリースする。
ソーシャルメディアで最も重要な議論点をカバーする幅広いトピックについて、トレーニングとテストデータを提供しています。
タスク上で,現在の汎用言語モデルとドメイン固有言語モデルの定量的評価と分析を行う。
論文 参考訳(メタデータ) (2022-09-20T16:13:52Z) - TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel
Topic Clusters [57.59286394188025]
我々はTaxoComというトピック分類の完成のための新しい枠組みを提案する。
TaxoComは、用語と文書の新たなサブトピッククラスタを発見する。
2つの実世界のデータセットに関する包括的実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から、高品質なトピック分類を生成するだけでなく、高品質なトピック分類を生成することを実証した。
論文 参考訳(メタデータ) (2022-01-18T07:07:38Z) - Towards Theme Detection in Personal Finance Questions [0.0]
本稿では,複数のテーマの発生を抽出するコールセンターテーマ検出手法を提案する。
一つの質問における複数のテーマの発生を捉えるために、このアプローチは質問レベルではなく、文中のクラスタをエンコードする。
我々は,このタスクに対してマイクロF1を0.46で達成し,その結果,少しうるさい場合でも,クラスタに関連付けられたラベルとトポロジ的に一致した文を含むことを示す。
論文 参考訳(メタデータ) (2021-10-04T16:44:16Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z) - Detecting and Classifying Malevolent Dialogue Responses: Taxonomy, Data
and Methodology [68.8836704199096]
コーパスベースの会話インタフェースは、テンプレートベースのエージェントや検索ベースのエージェントよりも多様な自然なレスポンスを生成することができる。
コーパスベースの会話エージェントの生成能力が増大すると、マレヴォレントな反応を分類し、フィルタリングする必要性が生じる。
不適切な内容の認識と分類に関するこれまでの研究は、主にある種のマレヴォレンスに焦点を絞っている。
論文 参考訳(メタデータ) (2020-08-21T22:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。