論文の概要: Topological Data Analysis in Text Classification: Extracting Features
with Additive Information
- arxiv url: http://arxiv.org/abs/2003.13138v1
- Date: Sun, 29 Mar 2020 21:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 13:22:02.671356
- Title: Topological Data Analysis in Text Classification: Extracting Features
with Additive Information
- Title(参考訳): テキスト分類におけるトポロジカルデータ分析:付加情報を用いた特徴抽出
- Authors: Shafie Gholizadeh, Ketki Savle, Armin Seyeditabari and Wlodek Zadrozny
- Abstract要約: 位相データ解析は高次元数値データに適用することが困難である。
トポロジカルな特徴は、従来のテキストマイニングでは捉えられていない独占的な情報を持っている。
アンサンブルモデルにおける従来の特徴に位相的特徴を加えることで、分類結果が改善される。
- 参考スコア(独自算出の注目度): 2.1410799064827226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the strength of Topological Data Analysis has been explored in many
studies on high dimensional numeric data, it is still a challenging task to
apply it to text. As the primary goal in topological data analysis is to define
and quantify the shapes in numeric data, defining shapes in the text is much
more challenging, even though the geometries of vector spaces and conceptual
spaces are clearly relevant for information retrieval and semantics. In this
paper, we examine two different methods of extraction of topological features
from text, using as the underlying representations of words the two most
popular methods, namely word embeddings and TF-IDF vectors. To extract
topological features from the word embedding space, we interpret the embedding
of a text document as high dimensional time series, and we analyze the topology
of the underlying graph where the vertices correspond to different embedding
dimensions. For topological data analysis with the TF-IDF representations, we
analyze the topology of the graph whose vertices come from the TF-IDF vectors
of different blocks in the textual document. In both cases, we apply
homological persistence to reveal the geometric structures under different
distance resolutions. Our results show that these topological features carry
some exclusive information that is not captured by conventional text mining
methods. In our experiments we observe adding topological features to the
conventional features in ensemble models improves the classification results
(up to 5\%). On the other hand, as expected, topological features by themselves
may be not sufficient for effective classification. It is an open problem to
see whether TDA features from word embeddings might be sufficient, as they seem
to perform within a range of few points from top results obtained with a linear
support vector classifier.
- Abstract(参考訳): 高次元数値データに関する多くの研究でトポロジカルデータ解析の強みが研究されているが、テキストに適用することは依然として難しい課題である。
位相データ解析の主要な目的は数値データ内の形状を定義し、定量化することであり、ベクトル空間や概念空間の幾何学が情報検索や意味論に明らかに関係しているにもかかわらず、テキスト内の形状を定義することはずっと困難である。
本稿では,テキストからトポロジ的特徴を抽出する2つの手法を,単語埋め込みとTF-IDFベクトルの2つの最も一般的な方法として用いた。
単語埋め込み空間から位相的特徴を抽出するために,テキスト文書の埋め込みを高次元時系列として解釈し,頂点が異なる埋め込み次元に対応する基底グラフの位相解析を行う。
TF-IDF表現を用いたトポロジデータ解析では,テキスト文書中の異なるブロックのTF-IDFベクトルから頂点が得られたグラフのトポロジを分析する。
どちらの場合も、距離分解の異なる幾何学的構造を明らかにするためにホモロジー的永続性を適用する。
その結果,これらの位相的特徴は,従来のテキストマイニング法では捉えられていない情報を含むことがわかった。
実験では,アンサンブルモデルにおける従来の特徴にトポロジ的特徴を加えることにより,分類結果(最大5\%)が向上することが観察された。
一方、予想通り、トポロジカルな特徴だけでは効果的な分類には不十分かもしれない。
線形サポートベクトル分類器で得られたトップ結果から数ポイントの範囲で機能するように見えるため、単語埋め込みからのtda特徴が十分であるかどうかを確認することは、オープンな問題である。
関連論文リスト
- Topograph: An efficient Graph-Based Framework for Strictly Topology Preserving Image Segmentation [78.54656076915565]
位相的正しさは多くの画像分割タスクにおいて重要な役割を果たす。
ほとんどのネットワークは、Diceのようなピクセル単位の損失関数を使って、トポロジカルな精度を無視して訓練されている。
トポロジ的に正確な画像セグメンテーションのための新しいグラフベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-05T16:20:14Z) - Dissecting embedding method: learning higher-order structures from data [0.0]
データ学習のための幾何学的深層学習法は、しばしば特徴空間の幾何学に関する仮定のセットを含む。
これらの仮定と、データが離散的で有限であるという仮定は、いくつかの一般化を引き起こし、データとモデルの出力の間違った解釈を生み出す可能性がある。
論文 参考訳(メタデータ) (2024-10-14T08:19:39Z) - Improving embedding of graphs with missing data by soft manifolds [51.425411400683565]
グラフ埋め込みの信頼性は、連続空間の幾何がグラフ構造とどの程度一致しているかに依存する。
我々は、この問題を解決することができる、ソフト多様体と呼ばれる新しい多様体のクラスを導入する。
グラフ埋め込みにソフト多様体を用いることで、複雑なデータセット上のデータ解析における任意のタスクを追求するための連続空間を提供できる。
論文 参考訳(メタデータ) (2023-11-29T12:48:33Z) - On topological data analysis for structural dynamics: an introduction to
persistent homology [0.0]
トポロジカル・データ分析(トポロジカル・データ・アナリティクス)は、長さのスケールでデータの形状を定量化する手法である。
永続ホモロジー(Persistent homology)は、長さのスケールでデータの形状を定量化する手法である。
論文 参考訳(メタデータ) (2022-09-12T10:39:38Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Contrastive analysis for scatter plot-based representations of
dimensionality reduction [0.0]
本稿では,マルチ次元データセットを探索し,クラスタの形成を解釈する手法を提案する。
また,属性がクラスタ形成にどのように影響するかを理解するために使用される統計変数間の関係を視覚的に解釈し,探索する二部グラフも導入する。
論文 参考訳(メタデータ) (2021-01-26T01:16:31Z) - Learning the Implicit Semantic Representation on Graph-Structured Data [57.670106959061634]
グラフ畳み込みネットワークにおける既存の表現学習手法は主に、各ノードの近傍を知覚全体として記述することで設計される。
本稿では,グラフの潜在意味パスを学習することで暗黙的な意味を探索する意味グラフ畳み込みネットワーク(sgcn)を提案する。
論文 参考訳(メタデータ) (2021-01-16T16:18:43Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Argumentative Topology: Finding Loop(holes) in Logic [3.977669302067367]
トポロジカルワード埋め込みは力学系解析とデータ駆動形状抽出に数学的手法を用いる。
トポロジカル遅延埋め込みを用いることで、異なる形状の論理概念をキャプチャして抽出できることが示される。
論文 参考訳(メタデータ) (2020-11-17T21:23:58Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - A Novel Method of Extracting Topological Features from Word Embeddings [2.4063592468412267]
テキストの単語埋め込み表現からトポロジ的特徴を抽出する新しいアルゴリズムを提案する。
定義したトポロジ的特徴が従来のテキストマイニング機能より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-29T16:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。