論文の概要: Unlocking Multi-Modal Potentials for Link Prediction on Dynamic Text-Attributed Graphs
- arxiv url: http://arxiv.org/abs/2502.19651v2
- Date: Fri, 01 Aug 2025 10:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 14:06:53.33593
- Title: Unlocking Multi-Modal Potentials for Link Prediction on Dynamic Text-Attributed Graphs
- Title(参考訳): 動的テキスト分散グラフにおけるリンク予測のための複数モードポテンシャルのアンロック
- Authors: Yuanyuan Xu, Wenjie Zhang, Ying Zhang, Xuemin Lin, Xiwei Xu,
- Abstract要約: Dynamic Text-Attributed Graphs (DyTAGs)は、リッチテキスト属性とともに進化する時間的イベント(エッジ)をキャプチャする新しいグラフパラダイムである。
MoMentは、リンク予測のためのノード表現を学習するために、各モードを明示的にモデル化し、統合し、調整するマルチモーダルモデルである。
実験の結果、MoMentは最大17.28%の精度向上を実現し、8つのベースラインに対して最大31倍のスピードアップを達成した。
- 参考スコア(独自算出の注目度): 28.533930417703715
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dynamic Text-Attributed Graphs (DyTAGs) are a novel graph paradigm that captures evolving temporal events (edges) alongside rich textual attributes. Existing studies can be broadly categorized into TGNN-driven and LLM-driven approaches, both of which encode textual attributes and temporal structures for DyTAG representation. We observe that DyTAGs inherently comprise three distinct modalities: temporal, textual, and structural, often exhibiting completely disjoint distributions. However, the first two modalities are largely overlooked by existing studies, leading to suboptimal performance. To address this, we propose MoMent, a multi-modal model that explicitly models, integrates, and aligns each modality to learn node representations for link prediction. Given the disjoint nature of the original modality distributions, we first construct modality-specific features and encode them using individual encoders to capture correlations across temporal patterns, semantic context, and local structures. Each encoder generates modality-specific tokens, which are then fused into comprehensive node representations with a theoretical guarantee. To avoid disjoint subspaces of these heterogeneous modalities, we propose a dual-domain alignment loss that first aligns their distributions globally and then fine-tunes coherence at the instance level. This enhances coherent representations from temporal, textual, and structural views. Extensive experiments across seven datasets show that MoMent achieves up to 17.28% accuracy improvement and up to 31x speed-up against eight baselines.
- Abstract(参考訳): Dynamic Text-Attributed Graphs (DyTAGs)は、リッチテキスト属性とともに進化する時間的イベント(エッジ)をキャプチャする新しいグラフパラダイムである。
既存の研究は、TGNN駆動とLLM駆動のアプローチに大きく分類することができ、どちらもDyTAG表現のためのテキスト属性と時間構造を符号化している。
我々は、DyTAGが本質的に3つの異なるモダリティ(時間、テキスト、構造)から構成されており、しばしば完全に不連続な分布を示すことを観察した。
しかしながら、最初の2つのモダリティは既存の研究によってほとんど見落とされ、最適以下の性能をもたらす。
そこで本研究では,リンク予測のためのノード表現を学習するためのモダリティを明示的にモデル化し,統合し,調整するマルチモーダルモデルであるMoMentを提案する。
元のモダリティ分布の不整合性を考えると、まずモダリティ固有の特徴を構築し、個々のエンコーダを用いてエンコードし、時間的パターン、意味的文脈、局所構造間の相関を捉える。
それぞれのエンコーダはモダリティ固有のトークンを生成し、理論的な保証とともに包括的ノード表現に融合する。
これらの不均一なモジュラリティの解離部分空間を避けるために、まずその分布をグローバルに整列し、次にインスタンスレベルで細管コヒーレンスを与える二重領域アライメント損失を提案する。
これにより、時間的、テキスト的、構造的な視点からコヒーレントな表現が強化される。
7つのデータセットにわたる大規模な実験により、MoMentは最大17.28%の精度向上を実現し、8つのベースラインに対して最大31倍のスピードアップを達成した。
関連論文リスト
- Hybrid Hypergraph Networks for Multimodal Sequence Data Classification [9.688069013427057]
本稿では,時間的マルチモーダルデータをセグメンテーションファースト,グラフ後処理によってモデル化するハイブリッドハイパーグラフネットワーク(HHN)を提案する。
HHNは4つのマルチモーダルデータセットに対して最先端の結果を達成し、複雑な分類タスクにおいてその有効性を示す。
論文 参考訳(メタデータ) (2025-07-30T12:13:05Z) - Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex [0.16385815610837165]
BiGTexは、スタック化されたGraph-Text Fusion Unitを通じてGNNとLLMを密に統合する新しいアーキテクチャである。
BiGTexはノード分類における最先端性能を実現し、リンク予測に効果的に一般化する。
論文 参考訳(メタデータ) (2025-04-16T20:25:11Z) - Unifying Text Semantics and Graph Structures for Temporal Text-attributed Graphs with Large Language Models [19.710059031046377]
時間グラフニューラルネットワーク(TGNN)は時間グラフモデリングにおいて顕著な性能を示した。
TTAGモデリングのための既存のTGNNをシームレスに拡張する新しいフレームワークである textbfCross を提案する。
論文 参考訳(メタデータ) (2025-03-18T16:50:10Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - Matcha: Mitigating Graph Structure Shifts with Test-Time Adaptation [66.40525136929398]
テスト時間適応(TTA)は、ソースドメインに再アクセスすることなく、トレーニング済みのモデルをターゲットドメインに適応できる能力によって注目を集めている。
グラフの構造シフトへの効果的かつ効率的な適応を目的とした,革新的なフレームワークであるMatchaを提案する。
合成と実世界の両方のデータセットに対するMatchaの有効性を検証し、構造と属性シフトの様々な組み合わせにおける頑健さを実証した。
論文 参考訳(メタデータ) (2024-10-09T15:15:40Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [31.192044026127032]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。
最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。
時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-27T13:22:55Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - GrannGAN: Graph annotation generative adversarial networks [72.66289932625742]
本稿では,高次元分布をモデル化し,グラフスケルトンと整合した複雑な関係特徴構造を持つデータの新しい例を生成することの問題点を考察する。
提案するモデルは,タスクを2つのフェーズに分割することで,各データポイントのグラフ構造に制約されたデータ特徴を生成する問題に対処する。
第一に、与えられたグラフのノードに関連する機能の分布をモデル化し、第二に、ノードのフィーチャに条件付きでエッジ機能を補完する。
論文 参考訳(メタデータ) (2022-12-01T11:49:07Z) - DyTed: Disentangled Representation Learning for Discrete-time Dynamic
Graph [59.583555454424]
離散時間動的グラフ、すなわちDyTedのための新しいディペンタングル表現学習フレームワークを提案する。
本研究では,時間不変の表現と時間変動の表現を効果的に識別する構造的コントラスト学習とともに,時間的クリップのコントラスト学習タスクを特別に設計する。
論文 参考訳(メタデータ) (2022-10-19T14:34:12Z) - TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。
我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文 参考訳(メタデータ) (2021-05-17T15:33:25Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。