論文の概要: Unlocking Multi-Modal Potentials for Dynamic Text-Attributed Graph Representation
- arxiv url: http://arxiv.org/abs/2502.19651v1
- Date: Thu, 27 Feb 2025 00:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:44.884138
- Title: Unlocking Multi-Modal Potentials for Dynamic Text-Attributed Graph Representation
- Title(参考訳): 動的テキスト属性グラフ表現のためのマルチモーダルポテンシャルのアンロック
- Authors: Yuanyuan Xu, Wenjie Zhang, Ying Zhang, Xuemin Lin, Xiwei Xu,
- Abstract要約: Dynamic Text-Attributed Graphs (DyTAGs)は、リッチテキスト属性とともに進化する時間的エッジをキャプチャする新しいグラフパラダイムである。
MoMentはモデルに依存しないマルチモーダルフレームワークで、動的グラフモデルとシームレスに統合して構造的モダリティ学習を行うことができる。
MoMentは4つの動的グラフモデルを使用して、ベースラインに対して最大33.62%の改善を達成している。
- 参考スコア(独自算出の注目度): 28.533930417703715
- License:
- Abstract: Dynamic Text-Attributed Graphs (DyTAGs) are a novel graph paradigm that captures evolving temporal edges alongside rich textual attributes. A prior approach to representing DyTAGs leverages pre-trained language models to encode text attributes and subsequently integrates them into dynamic graph models. However, it follows edge-centric modeling, as in dynamic graph learning, which is limited in local structures and fails to exploit the unique characteristics of DyTAGs, leading to suboptimal performance. We observe that DyTAGs inherently comprise three distinct modalities-temporal, textual, and structural-often exhibiting dispersed or even orthogonal distributions, with the first two largely overlooked in existing research. Building on this insight, we propose MoMent, a model-agnostic multi-modal framework that can seamlessly integrate with dynamic graph models for structural modality learning. The core idea is to shift from edge-centric to node-centric modeling, fully leveraging three modalities for node representation. Specifically, MoMent presents non-shared node-centric encoders based on the attention mechanism to capture global temporal and semantic contexts from temporal and textual modalities, together with local structure learning, thus generating modality-specific tokens. To prevent disjoint latent space, we propose a symmetric alignment loss, an auxiliary objective that aligns temporal and textual tokens, ensuring global temporal-semantic consistency with a theoretical guarantee. Last, we design a lightweight adaptor to fuse these tokens, generating comprehensive and cohesive node representations. We theoretically demonstrate that MoMent enhances discriminative power over exclusive edge-centric modeling. Extensive experiments across seven datasets and two downstream tasks show that MoMent achieves up to 33.62% improvement against the baseline using four dynamic graph models.
- Abstract(参考訳): Dynamic Text-Attributed Graphs (DyTAGs)は、リッチテキスト属性とともに進化する時間的エッジをキャプチャする新しいグラフパラダイムである。
DyTAGを表現するための以前のアプローチは、事前訓練された言語モデルを利用してテキスト属性をエンコードし、その後動的グラフモデルに統合する。
しかし、局所構造に制限があり、DyTAGのユニークな特性を活用できない動的グラフ学習のように、エッジ中心のモデリングに従えば、準最適性能が得られる。
我々はDyTAGが本質的に3つの異なるモーダル性-時間的、テキスト的、構造的-しばしば分散された、あるいは直交的な分布を含むことを観察し、最初の2つは既存の研究でほとんど見落とされてしまった。
この知見に基づいて、構造的モダリティ学習のための動的グラフモデルとシームレスに統合可能なモデルに依存しないマルチモーダルフレームワークであるMoMentを提案する。
中心となる考え方は、エッジ中心からノード中心のモデリングにシフトし、ノード表現に3つのモダリティを完全に活用することである。
特に、MoMentは、時間的・テキスト的なモーダル性からグローバルな時間的・意味的な文脈を捉え、局所的な構造学習とともに、非共有ノード中心のエンコーダをアテンション機構に基づいて提示し、モダリティ固有のトークンを生成する。
そこで本稿では,時間的およびテキスト的トークンの整合性を確保するための補助的目的である対称アライメント損失を理論的保証とともに大域的時間的・意味的整合性を確保することを提案する。
最後に、これらのトークンを融合させる軽量適応器を設計し、包括的で凝集性の高いノード表現を生成する。
理論的には、MoMentは排他的エッジ中心モデリングよりも識別力を高める。
7つのデータセットと2つの下流タスクにわたる大規模な実験により、MoMentは4つの動的グラフモデルを使用してベースラインに対して最大33.62%の改善を達成した。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [31.192044026127032]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。
最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。
時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-27T13:22:55Z) - GrannGAN: Graph annotation generative adversarial networks [72.66289932625742]
本稿では,高次元分布をモデル化し,グラフスケルトンと整合した複雑な関係特徴構造を持つデータの新しい例を生成することの問題点を考察する。
提案するモデルは,タスクを2つのフェーズに分割することで,各データポイントのグラフ構造に制約されたデータ特徴を生成する問題に対処する。
第一に、与えられたグラフのノードに関連する機能の分布をモデル化し、第二に、ノードのフィーチャに条件付きでエッジ機能を補完する。
論文 参考訳(メタデータ) (2022-12-01T11:49:07Z) - DyTed: Disentangled Representation Learning for Discrete-time Dynamic
Graph [59.583555454424]
離散時間動的グラフ、すなわちDyTedのための新しいディペンタングル表現学習フレームワークを提案する。
本研究では,時間不変の表現と時間変動の表現を効果的に識別する構造的コントラスト学習とともに,時間的クリップのコントラスト学習タスクを特別に設計する。
論文 参考訳(メタデータ) (2022-10-19T14:34:12Z) - Self-Supervised Dynamic Graph Representation Learning via Temporal
Subgraph Contrast [0.8379286663107846]
本稿では,自己教師型動的グラフ表現学習フレームワーク(DySubC)を提案する。
DySubCは、動的グラフの構造的特徴と進化的特徴を同時に学習するために、時間的部分グラフのコントラスト学習タスクを定義している。
実世界の5つのデータセットの実験では、DySubCは関連するベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-12-16T09:35:34Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。