論文の概要: A Framework for Authorial Clustering of Shorter Texts in Latent Semantic
Spaces
- arxiv url: http://arxiv.org/abs/2011.15038v1
- Date: Mon, 30 Nov 2020 17:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 15:04:51.387024
- Title: A Framework for Authorial Clustering of Shorter Texts in Latent Semantic
Spaces
- Title(参考訳): 潜在意味空間における短いテキストの権威的クラスタリングのためのフレームワーク
- Authors: Rafi Trad, Myra Spiliopoulou
- Abstract要約: 著者クラスタリングは、著者の執筆スタイルや主題的好みの事前の肯定的な例のない、同一の著者または著者のチームによって書かれた文書をグループ化する。
非パラメトリックなトピックモデリングから導出した潜在特徴空間におけるコンパクトなデータ表現を利用する高レベルフレームワークを提案する。
3つの言語と2つのジャンルで120個のコレクションを実験し、トピックベースの潜在機能空間が有望なパフォーマンスを提供することを示す。
- 参考スコア(独自算出の注目度): 4.18804572788063
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Authorial clustering involves the grouping of documents written by the same
author or team of authors without any prior positive examples of an author's
writing style or thematic preferences. For authorial clustering on shorter
texts (paragraph-length texts that are typically shorter than conventional
documents), the document representation is particularly important: very
high-dimensional feature spaces lead to data sparsity and suffer from serious
consequences like the curse of dimensionality, while feature selection may lead
to information loss. We propose a high-level framework which utilizes a compact
data representation in a latent feature space derived with non-parametric topic
modeling. Authorial clusters are identified thereafter in two scenarios: (a)
fully unsupervised and (b) semi-supervised where a small number of shorter
texts are known to belong to the same author (must-link constraints) or not
(cannot-link constraints). We report on experiments with 120 collections in
three languages and two genres and show that the topic-based latent feature
space provides a promising level of performance while reducing the
dimensionality by a factor of 1500 compared to state-of-the-arts. We also
demonstrate that, while prior knowledge on the precise number of authors (i.e.
authorial clusters) does not contribute much to additional quality, little
knowledge on constraints in authorial clusters memberships leads to clear
performance improvements in front of this difficult task. Thorough
experimentation with standard metrics indicates that there still remains an
ample room for improvement for authorial clustering, especially with shorter
texts
- Abstract(参考訳): 権威クラスタリングは、著者の執筆スタイルや主題的好みの事前の肯定的な例のない、同一の著者または著者のチームによって書かれた文書をグループ化する。
短いテキスト(通常従来の文書よりも短いパラグラフ長のテキスト)の著者によるクラスタリングでは、文書表現は特に重要であり、非常に高次元の特徴空間はデータ空間を生じ、次元の呪いのような深刻な結果に悩まされる一方、特徴選択は情報損失につながる可能性がある。
非パラメトリックなトピックモデリングから導出した潜在特徴空間におけるコンパクトなデータ表現を利用する高レベルフレームワークを提案する。
a) 完全に教師されない、(b) 少数の短いテキストが同じ著者(マスリンクの制約)に属していることが知られている半教師の2つのシナリオで、権威的クラスタが識別される。
3つの言語と2つのジャンルの120のコレクションを用いた実験を報告し、トピックベースの潜在機能空間が、最先端に比べて次元を1500倍に削減しながら、有望なパフォーマンスを提供することを示した。
また、著者の正確な数(すなわち、著者数)について事前の知識が得られている。
権威あるクラスタ)は、追加の品質にはあまり寄与しないが、権威あるクラスタの制約に関する知識の不足は、この困難なタスクの前に、パフォーマンスの改善を明確にする。
標準的な指標による徹底的な実験は、権威的クラスタリング、特に短いテキストで改善の余地がまだ残っていることを示している。
関連論文リスト
- SpeciaLex: A Benchmark for In-Context Specialized Lexicon Learning [4.1205832766381985]
SpeciaLexは、特殊レキシコンベースの制約に従う言語モデルの能力を評価するためのベンチマークである。
本稿では,15のオープン・クローズド・ソース LLM の実証評価を行い,モデルスケール,オープンネス,セットアップ,信頼性などの要因が,ベンチマークで評価した場合のパフォーマンスに与える影響について考察する。
論文 参考訳(メタデータ) (2024-07-18T08:56:02Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Prompting Large Language Models for Topic Modeling [10.31712610860913]
大規模言語モデル(LLM)の高度な言語理解を活用する新しいトピックモデリング手法であるPromptTopicを提案する。
個々の文書から文章レベルでトピックを抽出し、これらのトピックを事前定義された量に集約して凝縮し、最終的に様々な長さのテキストに対して一貫性のあるトピックを提供する。
PromptTopicを3つの非常に多様なデータセットの最先端のベースラインに対してベンチマークし、意味のあるトピックを発見する能力を確立しました。
論文 参考訳(メタデータ) (2023-12-15T11:15:05Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Unsupervised Summarization with Customized Granularities [76.26899748972423]
本稿では,最初の教師なし多粒度要約フレームワークであるGranuSumを提案する。
異なる数のイベントを入力することで、GranuSumは教師なしの方法で複数の粒度のサマリーを生成することができる。
論文 参考訳(メタデータ) (2022-01-29T05:56:35Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical
Supervision from Extractive Summaries [46.183289748907804]
長文生成のためのアウトライン化,アウトライン化,エラボレートを行うパイプラインシステムSOEを提案する。
SOEは、より高速な収束速度とともに、非常に優れた品質の長いテキストを生成する。
論文 参考訳(メタデータ) (2020-10-14T13:22:20Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。