論文の概要: A Graph Convolutional Topic Model for Short and Noisy Text Streams
- arxiv url: http://arxiv.org/abs/2003.06112v4
- Date: Fri, 24 Dec 2021 02:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:04:52.145726
- Title: A Graph Convolutional Topic Model for Short and Noisy Text Streams
- Title(参考訳): 短・雑音テキストストリームのためのグラフ畳み込みトピックモデル
- Authors: Ngo Van Linh, Tran Xuan Bach and Khoat Than
- Abstract要約: グラフ畳み込みネットワーク(GCN)をトピックモデルに統合する新しいグラフ畳み込みトピックモデル(GCTM)を提案する。
我々は、人間の知識グラフ(Wordnet)と事前学習した単語埋め込み(Word2vec)から構築したグラフの両方を用いて、我々の手法を評価するための広範な実験を行った。
本手法は,確率的予測測度とトピックコヒーレンスの観点から,最先端のベースラインよりもはるかに優れた性能を実現する。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning hidden topics from data streams has become absolutely necessary but
posed challenging problems such as concept drift as well as short and noisy
data. Using prior knowledge to enrich a topic model is one of potential
solutions to cope with these challenges. Prior knowledge that is derived from
human knowledge (e.g. Wordnet) or a pre-trained model (e.g. Word2vec) is very
valuable and useful to help topic models work better. However, in a streaming
environment where data arrives continually and infinitely, existing studies are
limited to exploiting these resources effectively. Especially, a knowledge
graph, that contains meaningful word relations, is ignored. In this paper, to
aim at exploiting a knowledge graph effectively, we propose a novel graph
convolutional topic model (GCTM) which integrates graph convolutional networks
(GCN) into a topic model and a learning method which learns the networks and
the topic model simultaneously for data streams. In each minibatch, our method
not only can exploit an external knowledge graph but also can balance the
external and old knowledge to perform well on new data. We conduct extensive
experiments to evaluate our method with both a human knowledge graph (Wordnet)
and a graph built from pre-trained word embeddings (Word2vec). The experimental
results show that our method achieves significantly better performances than
state-of-the-art baselines in terms of probabilistic predictive measure and
topic coherence. In particular, our method can work well when dealing with
short texts as well as concept drift. The implementation of GCTM is available
at \url{https://github.com/bachtranxuan/GCTM.git}.
- Abstract(参考訳): データストリームから隠れたトピックを学ぶことは、必然的に必要だが、コンセプトドリフトや、短くて騒がしいデータといった難しい問題を引き起こした。
トピックモデルを強化するために事前知識を使用することは、これらの課題に対処する潜在的な解決策の1つです。
人的知識(Wordnetなど)や事前訓練されたモデル(Word2vecなど)から派生した事前知識は、トピックモデルがよりうまく機能するのに非常に有用である。
しかし、データが継続的に無限に届くストリーミング環境では、既存の研究はこれらのリソースを効果的に活用することに限定されている。
特に意味のある単語関係を含む知識グラフは無視される。
本稿では,知識グラフを効果的に活用することを目的として,グラフ畳み込みネットワーク(gcn)をトピックモデルに統合する新しいグラフ畳み込みトピックモデル(gctm)と,データストリームに対してネットワークとトピックモデルを同時に学習する学習方法を提案する。
各ミニバッチでは,外部ナレッジグラフを活用できるだけでなく,外部ナレッジグラフと古いナレッジのバランスをとることができ,新しいデータでうまく機能する。
我々は,人間の知識グラフ(Wordnet)と事前学習した単語埋め込み(Word2vec)から構築したグラフ(Word2vec)を用いて,提案手法の評価を行う。
提案手法は,確率的予測尺度とトピックコヒーレンスの観点から,最先端のベースラインよりもはるかに優れた性能が得られることを示す。
特に,本手法は,短いテキストやコンセプトドリフトを扱う場合にも有効である。
GCTMの実装は \url{https://github.com/bachtranxuan/GCTM.git} で利用可能である。
関連論文リスト
- Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning [45.70767623846523]
我々は,Node Level Graph AutoEncoder (NodeGAE) という,教師なしの新たな学習オートエンコーダフレームワークを提案する。
我々は、自動エンコーダのバックボーンとして言語モデルを使用し、テキスト再構成を事前訓練する。
本手法は,学習過程における単純さを維持し,多種多様なテキストグラフや下流タスクの一般化性を示す。
論文 参考訳(メタデータ) (2024-08-09T14:57:53Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - PRODIGY: Enabling In-context Learning Over Graphs [112.19056551153454]
コンテキスト内学習(In-context learning)とは、事前訓練されたモデルが、新しい多様な下流タスクに適応する能力である。
ProDIGYは,グラフ上でのコンテキスト内学習を可能にする最初の事前学習フレームワークである。
論文 参考訳(メタデータ) (2023-05-21T23:16:30Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - State of the Art and Potentialities of Graph-level Learning [54.68482109186052]
グラフレベルの学習は、比較、回帰、分類など、多くのタスクに適用されている。
グラフの集合を学習する伝統的なアプローチは、サブストラクチャのような手作りの特徴に依存している。
ディープラーニングは、機能を自動的に抽出し、グラフを低次元表現に符号化することで、グラフレベルの学習をグラフの規模に適応させるのに役立っている。
論文 参考訳(メタデータ) (2023-01-14T09:15:49Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Learnable Graph Matching: Incorporating Graph Partitioning with Deep
Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。
既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。
そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:58:45Z) - Co-embedding of Nodes and Edges with Graph Neural Networks [13.020745622327894]
グラフ埋め込みは、高次元および非ユークリッド特徴空間でデータ構造を変換しエンコードする方法である。
CensNetは一般的なグラフ埋め込みフレームワークで、ノードとエッジの両方を潜在機能空間に埋め込む。
提案手法は,4つのグラフ学習課題における最先端のパフォーマンスを達成または一致させる。
論文 参考訳(メタデータ) (2020-10-25T22:39:31Z) - Sub-graph Contrast for Scalable Self-Supervised Graph Representation
Learning [21.0019144298605]
既存のグラフニューラルネットワークは、計算量やメモリコストが限られているため、完全なグラフデータで供給される。
textscSubg-Conは、中央ノードとそのサンプルサブグラフ間の強い相関を利用して、地域構造情報をキャプチャすることで提案される。
既存のグラフ表現学習アプローチと比較して、textscSubg-Conは、より弱い監視要件、モデル学習のスケーラビリティ、並列化において、顕著なパフォーマンス上のアドバンテージを持っています。
論文 参考訳(メタデータ) (2020-09-22T01:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。