論文の概要: Pretraining Language Models with Text-Attributed Heterogeneous Graphs
- arxiv url: http://arxiv.org/abs/2310.12580v2
- Date: Mon, 23 Oct 2023 01:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:33:25.175868
- Title: Pretraining Language Models with Text-Attributed Heterogeneous Graphs
- Title(参考訳): テキスト属性不均質グラフを用いた事前学習言語モデル
- Authors: Tao Zou, Le Yu, Yifei Huang, Leilei Sun, Bowen Du
- Abstract要約: テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
- 参考スコア(独自算出の注目度): 28.579509154284448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world scenarios (e.g., academic networks, social platforms),
different types of entities are not only associated with texts but also
connected by various relationships, which can be abstracted as Text-Attributed
Heterogeneous Graphs (TAHGs). Current pretraining tasks for Language Models
(LMs) primarily focus on separately learning the textual information of each
entity and overlook the crucial aspect of capturing topological connections
among entities in TAHGs. In this paper, we present a new pretraining framework
for LMs that explicitly considers the topological and heterogeneous information
in TAHGs. Firstly, we define a context graph as neighborhoods of a target node
within specific orders and propose a topology-aware pretraining task to predict
nodes involved in the context graph by jointly optimizing an LM and an
auxiliary heterogeneous graph neural network. Secondly, based on the
observation that some nodes are text-rich while others have little text, we
devise a text augmentation strategy to enrich textless nodes with their
neighbors' texts for handling the imbalance issue. We conduct link prediction
and node classification tasks on three datasets from various domains.
Experimental results demonstrate the superiority of our approach over existing
methods and the rationality of each design. Our code is available at
https://github.com/Hope-Rita/THLM.
- Abstract(参考訳): 多くの現実のシナリオ(例えば、学術的ネットワーク、社会プラットフォーム)では、異なるタイプのエンティティはテキストに関連付けられているだけでなく、様々な関係によって関連付けられており、テキスト属性の異種グラフ(TAHG)として抽象化できる。
現在の言語モデルのための事前学習タスク(lms)は、主に各エンティティのテキスト情報を個別に学習することに集中し、tahg内のエンティティ間のトポロジー接続を捉える重要な側面を見落としている。
本稿では,TAHGのトポロジ的および異種情報を明確に考慮した,LMのための新しい事前学習フレームワークを提案する。
まず,特定の順序における対象ノードの近傍としてコンテキストグラフを定義し,LMと補助ヘテロジニアスグラフニューラルネットワークを併用することにより,コンテキストグラフに関連するノードを予測するトポロジ対応事前学習タスクを提案する。
第二に、一部のノードがテキストに富んでいるのに対し、他のノードはテキストに乏しいという観測に基づいて、不均衡を扱うために隣人のテキストでテキストのないノードを豊かにするためのテキスト拡張戦略を考案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
実験により,既存手法に対するアプローチの優位性と各設計の合理性を示す。
私たちのコードはhttps://github.com/hope-rita/thlmで利用可能です。
関連論文リスト
- Large Language Model-based Augmentation for Imbalanced Node Classification on Text-Attributed Graphs [13.42259312243504]
LA-TAG (LLM-based Augmentation on Text-Attributed Graphs) と呼ばれる新しい手法を提案する。
グラフ内の既存のノードテキストに基づいて合成テキストを生成するように、Large Language Modelsに促す。
合成テキスト分散ノードをグラフに統合するために,テキストベースのリンク予測器を導入する。
論文 参考訳(メタデータ) (2024-10-22T10:36:15Z) - UniGLM: Training One Unified Language Model for Text-Attributed Graphs [31.464021556351685]
統一グラフ言語モデル(Unified Graph Language Model、UniGLM)は、グラフ埋め込みモデルであり、ドメイン内およびドメイン間TAGの両方によく一般化する。
UniGLMには、構造的に類似したノードを特定するための適応的な正のサンプル選択技術と、トレーニングを加速するために考案された遅延コントラストモジュールが含まれている。
論文 参考訳(メタデータ) (2024-06-17T19:45:21Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。