論文の概要: No Pattern, No Recognition: a Survey about Reproducibility and
Distortion Issues of Text Clustering and Topic Modeling
- arxiv url: http://arxiv.org/abs/2208.01712v1
- Date: Tue, 2 Aug 2022 19:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:04:08.140433
- Title: No Pattern, No Recognition: a Survey about Reproducibility and
Distortion Issues of Text Clustering and Topic Modeling
- Title(参考訳): no pattern, no recognition: テキストクラスタリングとトピックモデリングの再現性と歪み問題に関する調査
- Authors: Mar\'ilia Costa Rosendo Silva, Felipe Alves Siqueira, Jo\~ao Pedro
Mantovani Tarrega, Jo\~ao Vitor Pataca Beinotti, Augusto Sousa Nunes, Miguel
de Mattos Gardini, Vin\'icius Adolfo Pereira da Silva, N\'adia F\'elix Felipe
da Silva, Andr\'e Carlos Ponce de Leon Ferreira de Carvalho
- Abstract要約: 機械学習アルゴリズムは、ラベルのないテキストから知識を抽出するために使用することができる。
教師なし学習は、機械学習アルゴリズムによって変動を引き起こす可能性がある。
異常値と異常値の存在が決定要因となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extracting knowledge from unlabeled texts using machine learning algorithms
can be complex. Document categorization and information retrieval are two
applications that may benefit from unsupervised learning (e.g., text clustering
and topic modeling), including exploratory data analysis. However, the
unsupervised learning paradigm poses reproducibility issues. The initialization
can lead to variability depending on the machine learning algorithm.
Furthermore, the distortions can be misleading when regarding cluster geometry.
Amongst the causes, the presence of outliers and anomalies can be a determining
factor. Despite the relevance of initialization and outlier issues for text
clustering and topic modeling, the authors did not find an in-depth analysis of
them. This survey provides a systematic literature review (2011-2022) of these
subareas and proposes a common terminology since similar procedures have
different terms. The authors describe research opportunities, trends, and open
issues. The appendices summarize the theoretical background of the text
vectorization, the factorization, and the clustering algorithms that are
directly or indirectly related to the reviewed works.
- Abstract(参考訳): 機械学習アルゴリズムを使ってラベルのないテキストから知識を抽出することは複雑である。
文書分類と情報検索は、教師なし学習(テキストクラスタリングやトピックモデリングなど)の恩恵を受ける2つのアプリケーションであり、探索的データ分析を含む。
しかし、教師なし学習パラダイムは再現性の問題を引き起こす。
初期化は、機械学習アルゴリズムによる可変性をもたらす可能性がある。
さらに、クラスタ幾何に関して、歪みは誤解を招く可能性がある。
原因のうち、異常値と異常値の存在は決定要因となりうる。
テキストクラスタリングとトピックモデリングにおける初期化と外れた問題との関連性にもかかわらず、著者らはそれらの詳細な分析には至らなかった。
本調査は,これらのサブエリアの体系的文献レビュー (2011-2022) を提供し,類似した手順が異なるため,共通用語を提案する。
著者らは研究の機会、傾向、オープンな問題を解説している。
付録は、テキストベクトル化の理論的背景、因子化、レビューされた作品に直接的または間接的に関係するクラスタリングアルゴリズムを要約する。
関連論文リスト
- Experiments with truth using Machine Learning: Spectral analysis and explainable classification of synthetic, false, and genuine information [0.0]
本稿では, スペクトル分析, 可視化, 説明可能性の観点から, テキスト形式での合成, 偽, 真の情報を解析する。
情報を表現するために、複数のデータセットに様々な埋め込み技術が使用される。
分類は複数の機械学習アルゴリズムを用いて行われる。
論文 参考訳(メタデータ) (2024-07-07T18:31:09Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Scholastic: Graphical Human-Al Collaboration for Inductive and
Interpretive Text Analysis [20.008165537258254]
解釈学者は、意味のあるテーマが現れるまで、文書を手作業でサンプリングし、コードを適用し、コードをカテゴリに書き換え、照合することで、テキストコーパスから知識を生成する。
大規模なコーパスがあれば、機械学習はデータのサンプリングと分析をスケールするのに役立ちますが、以前の研究は、専門家が一般的に、解釈奨学金の破壊や推進に懸念を抱いていることを示しています。
我々は,機械・イン・ザ・ループクラスタリングアルゴリズムに関わる問題に対処するために,人間中心の設計アプローチを採り入れ,解釈テキスト分析を足場とした。
論文 参考訳(メタデータ) (2022-08-12T06:41:45Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - BATS: A Spectral Biclustering Approach to Single Document Topic Modeling
and Segmentation [17.003488045214972]
既存のトピックモデリングとテキストセグメンテーションの方法論は一般的に、トレーニングのために大きなデータセットを必要とする。
単一のドキュメントを扱う方法論を開発する際、我々は2つの大きな課題に直面します。
1つのドキュメントのみにアクセスすることで、従来のトピックモデルやディープラーニングアルゴリズムをトレーニングすることはできないのです。
第二に大きなノイズ: 単一の文書にある単語のかなりの部分がノイズのみを生成し、トピックやセグメントの識別に役立ちません。
論文 参考訳(メタデータ) (2020-08-05T16:34:33Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - EXPLAIN-IT: Towards Explainable AI for Unsupervised Network Traffic
Analysis [7.447122949368314]
ラベルのないデータを扱う手法であるEXPLAIN-ITを導入し、意味のあるクラスタを作成し、エンドユーザのクラスタリング結果の説明を提案する。
暗号化されたトラフィックシナリオ下でのYouTubeビデオ品質分類の問題に対してEXPLAIN-ITを適用し,有望な結果を示す。
論文 参考訳(メタデータ) (2020-03-03T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。