論文の概要: Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning
- arxiv url: http://arxiv.org/abs/2408.07091v2
- Date: Wed, 21 Aug 2024 05:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 21:36:42.787891
- Title: Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning
- Title(参考訳): Node Level Graph Autoencoder: テキストグラフ学習のための統一プレトレーニング
- Authors: Wenbin Hu, Huihao Jing, Qi Hu, Haoran Li, Yangqiu Song,
- Abstract要約: 我々は,Node Level Graph AutoEncoder (NodeGAE) という,教師なしの新たな学習オートエンコーダフレームワークを提案する。
我々は、自動エンコーダのバックボーンとして言語モデルを使用し、テキスト再構成を事前訓練する。
本手法は,学習過程における単純さを維持し,多種多様なテキストグラフや下流タスクの一般化性を示す。
- 参考スコア(独自算出の注目度): 45.70767623846523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual graphs are ubiquitous in real-world applications, featuring rich text information with complex relationships, which enables advanced research across various fields. Textual graph representation learning aims to generate low-dimensional feature embeddings from textual graphs that can improve the performance of downstream tasks. A high-quality feature embedding should effectively capture both the structural and the textual information in a textual graph. However, most textual graph dataset benchmarks rely on word2vec techniques to generate feature embeddings, which inherently limits their capabilities. Recent works on textual graph representation learning can be categorized into two folds: supervised and unsupervised methods. Supervised methods finetune a language model on labeled nodes, which have limited capabilities when labeled data is scarce. Unsupervised methods, on the other hand, extract feature embeddings by developing complex training pipelines. To address these limitations, we propose a novel unified unsupervised learning autoencoder framework, named Node Level Graph AutoEncoder (NodeGAE). We employ language models as the backbone of the autoencoder, with pretraining on text reconstruction. Additionally, we add an auxiliary loss term to make the feature embeddings aware of the local graph structure. Our method maintains simplicity in the training process and demonstrates generalizability across diverse textual graphs and downstream tasks. We evaluate our method on two core graph representation learning downstream tasks: node classification and link prediction. Comprehensive experiments demonstrate that our approach substantially enhances the performance of diverse graph neural networks (GNNs) across multiple textual graph datasets.
- Abstract(参考訳): テキストグラフは、様々な分野にわたる高度な研究を可能にする複雑な関係を持つリッチテキスト情報を特徴とする、現実世界のアプリケーションではユビキタスである。
テキストグラフ表現学習は、下流タスクの性能を向上させることができるテキストグラフから低次元の特徴埋め込みを生成することを目的としている。
高品質な機能埋め込みは、テキストグラフの構造情報とテキスト情報の両方を効果的にキャプチャする。
しかしながら、ほとんどのテキストグラフデータセットベンチマークは、機能埋め込みを生成するために word2vec 技術に依存している。
テキストグラフ表現学習に関する最近の研究は、教師なしと教師なしの2つの方法に分類できる。
ラベル付きデータが少ない場合に限られた機能を持つラベル付きノード上で言語モデルを微調整する。
一方、教師なしの手法では、複雑なトレーニングパイプラインを開発することで特徴埋め込みを抽出する。
これらの制約に対処するため,Node Level Graph AutoEncoder (NodeGAE) という,新しいアン教師なし学習オートエンコーダフレームワークを提案する。
我々は、自動エンコーダのバックボーンとして言語モデルを使用し、テキスト再構成を事前訓練する。
さらに、局所的なグラフ構造に特徴を埋め込むために補助的損失項を加える。
本手法は,学習過程における単純さを維持し,多種多様なテキストグラフや下流タスクの一般化性を示す。
本稿では,ノード分類とリンク予測という,下流タスクを学習する2つのコアグラフ表現について評価する。
総合的な実験により,本手法は複数のテキストグラフデータセットにまたがる多様なグラフニューラルネットワーク(GNN)の性能を大幅に向上させることが示された。
関連論文リスト
- G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - GRENADE: Graph-Centric Language Model for Self-Supervised Representation
Learning on Text-Attributed Graphs [22.282756544376493]
テキスト分散グラフ上での自己教師型表現学習の問題を解決するために,新しいグラフ中心言語モデルGRENADEを開発した。
GRENADEは、事前訓練された言語モデルとグラフニューラルネットワークの両方の相乗効果を利用して、2つの専門的な自己教師付き学習アルゴリズムを最適化する。
提案したグラフ中心の自己教師型学習アルゴリズムは、GRENADEが情報的テキスト意味論だけでなく、テキスト対応グラフの構造的コンテキスト情報を取得するのに有効である。
論文 参考訳(メタデータ) (2023-10-23T17:18:35Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - State of the Art and Potentialities of Graph-level Learning [54.68482109186052]
グラフレベルの学習は、比較、回帰、分類など、多くのタスクに適用されている。
グラフの集合を学習する伝統的なアプローチは、サブストラクチャのような手作りの特徴に依存している。
ディープラーニングは、機能を自動的に抽出し、グラフを低次元表現に符号化することで、グラフレベルの学習をグラフの規模に適応させるのに役立っている。
論文 参考訳(メタデータ) (2023-01-14T09:15:49Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Co-embedding of Nodes and Edges with Graph Neural Networks [13.020745622327894]
グラフ埋め込みは、高次元および非ユークリッド特徴空間でデータ構造を変換しエンコードする方法である。
CensNetは一般的なグラフ埋め込みフレームワークで、ノードとエッジの両方を潜在機能空間に埋め込む。
提案手法は,4つのグラフ学習課題における最先端のパフォーマンスを達成または一致させる。
論文 参考訳(メタデータ) (2020-10-25T22:39:31Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。