論文の概要: Multilayer Networks for Text Analysis with Multiple Data Types
- arxiv url: http://arxiv.org/abs/2106.15821v1
- Date: Wed, 30 Jun 2021 05:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:20:37.934211
- Title: Multilayer Networks for Text Analysis with Multiple Data Types
- Title(参考訳): 複数のデータ型を用いたテキスト解析のための多層ネットワーク
- Authors: Charles C. Hyland, Yuanming Tao, Lamiae Azizi, Martin Gerlach, Tiago
P. Peixoto, and Eduardo G. Altmann
- Abstract要約: 本稿では,マルチレイヤネットワークとブロックモデルに基づく新しいフレームワークを提案する。
複数の種類の情報を考慮すると、トピックやドキュメントクラスタに関するより微妙なビューが得られます。
- 参考スコア(独自算出の注目度): 0.21108097398435335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in the widespread problem of clustering documents and
finding topics in large collections of written documents in the presence of
metadata and hyperlinks. To tackle the challenge of accounting for these
different types of datasets, we propose a novel framework based on Multilayer
Networks and Stochastic Block Models. The main innovation of our approach over
other techniques is that it applies the same non-parametric probabilistic
framework to the different sources of datasets simultaneously. The key
difference to other multilayer complex networks is the strong unbalance between
the layers, with the average degree of different node types scaling differently
with system size. We show that the latter observation is due to generic
properties of text, such as Heaps' law, and strongly affects the inference of
communities. We present and discuss the performance of our method in different
datasets (hundreds of Wikipedia documents, thousands of scientific papers, and
thousands of E-mails) showing that taking into account multiple types of
information provides a more nuanced view on topic- and document-clusters and
increases the ability to predict missing links.
- Abstract(参考訳): 我々は、メタデータやハイパーリンクの存在下で、ドキュメントをクラスタリングし、大量の文書のコレクションの中にトピックを見つけるという広範な問題に興味を持っている。
本稿では,これらの異なるタイプのデータセットを考慮に入れることの課題を解決するために,マルチレイヤネットワークと確率ブロックモデルに基づく新しいフレームワークを提案する。
他の手法に対するアプローチの主な革新は、異なるデータセットソースに同じ非パラメトリック確率的フレームワークを同時に適用することです。
他の多層ネットワークとの主な違いは、異なるノードタイプの平均レベルがシステムサイズによって異なるため、レイヤ間の強いアンバランスである。
後者の観察は,Hapsの法則のようなテキストの一般的な性質によるものであり,コミュニティの推測に強く影響を及ぼすことを示す。
提案手法は,さまざまなデータセット(ウィキペディア文書数百件,科学論文数千件,電子メール数千件)において,複数の種類の情報を考慮すると,トピックやドキュメントクラスタのより曖昧なビューが得られ,リンク不足の予測能力が向上することを示す。
関連論文リスト
- Flexible inference in heterogeneous and attributed multilayer networks [21.349513661012498]
我々は任意の種類の情報を持つ多層ネットワークで推論を行う確率的生成モデルを開発した。
インド農村部における社会支援ネットワークにおける様々なパターンを明らかにする能力を示す。
論文 参考訳(メタデータ) (2024-05-31T15:21:59Z) - Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents [31.434507306952458]
文書エンティティのK-nearest-neighbor(KNN)グラフに基づいて,注目度計算の新たなバイアスを取り入れたKNNフォーマを提案する。
また、多くの文書に存在する1対1のマッピング特性に対処するために、マッチング空間を用いる。
本手法はトレーニング可能なパラメータの数の観点から既存の手法と比較して非常に効率的である。
論文 参考訳(メタデータ) (2024-05-08T10:10:38Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - ProSiT! Latent Variable Discovery with PROgressive SImilarity Thresholds [35.09631990817093]
ProSiTは決定論的かつ解釈可能な手法であり、遅延次元の最適数を求める。
ほとんどの設定では、ProSiTはトピックのコヒーレンスと特異性の観点から他のメソッドにマッチするか、性能を上回ります。
論文 参考訳(メタデータ) (2022-10-26T14:52:44Z) - Large-Scale Multi-Document Summarization with Information Extraction and
Compression [31.601707033466766]
複数の異種文書のラベル付きデータとは無関係に抽象的な要約フレームワークを開発する。
我々のフレームワークは、同じトピックのドキュメントではなく、異なるストーリーを伝えるドキュメントを処理する。
我々の実験は、このより汎用的な設定において、我々のフレームワークが現在の最先端メソッドより優れていることを示した。
論文 参考訳(メタデータ) (2022-05-01T19:49:15Z) - Sawtooth Factorial Topic Embeddings Guided Gamma Belief Network [49.458250193768826]
本稿では,文書の深部生成モデルであるGBNのソートゥース要素埋め込みについて述べる。
単語も話題も同じ次元の埋め込みベクトルとして表現される。
我々のモデルは、より深い解釈可能なトピックを抽出する他のニューラルネットワークモデルよりも優れています。
論文 参考訳(メタデータ) (2021-06-30T10:14:57Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Clustering multilayer graphs with missing nodes [4.007017852999008]
クラスタリングはネットワーク分析における基本的な問題であり、同じ接続プロファイルを持つノードを再グループ化するのが目標である。
異なるノードセット上でレイヤを定義できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-04T18:56:59Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。