論文の概要: Computational thematics: Comparing algorithms for clustering the genres
of literary fiction
- arxiv url: http://arxiv.org/abs/2305.11251v1
- Date: Thu, 18 May 2023 18:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:39:38.017162
- Title: Computational thematics: Comparing algorithms for clustering the genres
of literary fiction
- Title(参考訳): 計算システマティクス:文学小説のジャンルをクラスタ化するアルゴリズムの比較
- Authors: Oleg Sobchuk, Artjoms \v{S}e\c{l}a
- Abstract要約: 本稿では,テキスト間のセマンティックな類似点を教師なし学習するアルゴリズムについて比較する。
アルゴリズムの組み合わせには、事前にタグ付けされた4つのジャンルに属する本のコーパスをまとめるタスクが与えられる。
このクラスタリングは、"グラウンド・真理"ジャンルのラベルに対して検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What are the best methods of capturing thematic similarity between literary
texts? Knowing the answer to this question would be useful for automatic
clustering of book genres, or any other thematic grouping. This paper compares
a variety of algorithms for unsupervised learning of thematic similarities
between texts, which we call "computational thematics". These algorithms belong
to three steps of analysis: text preprocessing, extraction of text features,
and measuring distances between the lists of features. Each of these steps
includes a variety of options. We test all the possible combinations of these
options: every combination of algorithms is given a task to cluster a corpus of
books belonging to four pre-tagged genres of fiction. This clustering is then
validated against the "ground truth" genre labels. Such comparison of
algorithms allows us to learn the best and the worst combinations for
computational thematic analysis. To illustrate the sharp difference between the
best and the worst methods, we then cluster 5000 random novels from the
HathiTrust corpus of fiction.
- Abstract(参考訳): 文学テキスト間の主題的類似性を捉える最良の方法は何か?
この質問に対する答えを知ることは、本ジャンルの自動クラスタリングや、他のテーマグループ化に役立ちます。
本稿では,テキスト間の主題的類似性の教師なし学習のための様々なアルゴリズムを比較し,これを「計算的主題」と呼ぶ。
これらのアルゴリズムは、テキスト前処理、テキスト特徴の抽出、特徴リスト間の距離測定という3つの分析段階に属する。
それぞれのステップにはさまざまなオプションが含まれている。
アルゴリズムのあらゆる組み合わせは、事前にタグづけされた4つのジャンルのフィクションに属する本のコーパスをクラスタ化するタスクを与えられます。
このクラスタリングは"ground truth"というジャンルのラベルに対して検証される。
このようなアルゴリズムの比較により、計算テーマ解析の最良の組み合わせと最悪の組み合わせを学習することができる。
最高の方法と最悪の方法の鋭い違いを説明するために、hathitrust corpus of fictionから5000のランダム小説を集結させました。
関連論文リスト
- A Comparison of Document Similarity Algorithms [0.0]
文書類似性アルゴリズムを3種類の文書類似性アルゴリズムに分類することで、最も効果的な文書類似性アルゴリズムに対処する。
各カテゴリでもっとも効果的なアルゴリズムは、一連のベンチマークデータセットと評価を用いて、我々の研究で比較されます。
論文 参考訳(メタデータ) (2023-04-03T19:50:55Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Graph-based Semantical Extractive Text Analysis [0.0]
本研究では,テキストの部分間の意味的類似性を組み込むことで,TextRankアルゴリズムの結果を改善する。
キーワード抽出とテキスト要約とは別に,本フレームワークに基づくトピッククラスタリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-19T18:30:26Z) - Word Embeddings and Validity Indexes in Fuzzy Clustering [5.063728016437489]
単語の様々なベクトル表現、すなわち単語埋め込みのファジィに基づく解析。
我々は2つのファジィクラスタリングアルゴリズムをカウントベースの単語埋め込みに使用し、異なる手法と次元を持つ。
本研究では,様々なクラスタリング妥当性指標を用いた実験結果を評価し,異なるアルゴリズム変動と異なる埋め込み精度を比較した。
論文 参考訳(メタデータ) (2022-04-26T18:08:19Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Evaluating Various Tokenizers for Arabic Text Classification [4.110108749051656]
アラビア語に対する3つの新しいトークン化アルゴリズムを導入し、教師なし評価を用いて他の3つのベースラインと比較する。
実験の結果,このようなトークン化アルゴリズムの性能は,データセットのサイズ,タスクの種類,データセットに存在する形態素量に依存することがわかった。
論文 参考訳(メタデータ) (2021-06-14T16:05:58Z) - Determinantal Beam Search [75.84501052642361]
ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。
複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットがしばしば望まれる。
ビームサーチを一連の部分決定問題として繰り返し行うことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。
論文 参考訳(メタデータ) (2021-06-14T13:01:46Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Classification and Clustering of arXiv Documents, Sections, and
Abstracts, Comparing Encodings of Natural and Mathematical Language [8.522576207528017]
本稿では、自然言語と数学的言語のエンコーディングの選択と組み合わせが、文書の分類とクラスタリングに数学的内容がどう影響するかを示す。
私たちのエンコーディングは、分類精度が最大で82.8%、クラスタ純度が最大で69.4%に達する。
文書の分類において,コンピュータが人間の専門家より優れていることを示す。
論文 参考訳(メタデータ) (2020-05-22T06:16:32Z) - IMRAM: Iterative Matching with Recurrent Attention Memory for
Cross-Modal Image-Text Retrieval [105.77562776008459]
既存の手法は、注意機構を利用して、そのような対応をきめ細かな方法で探索する。
既存の手法でこのような高度な対応を最適に捉えるのは難しいかもしれない。
本稿では,複数段階のアライメントで対応を捉えるIMRAM法を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:24:41Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。