Fugu-MT 論文翻訳(概要): Unlocking Multi-Modal Potentials for Dynamic Text-Attributed Graph Representation

論文の概要: Unlocking Multi-Modal Potentials for Dynamic Text-Attributed Graph Representation

arxiv url: http://arxiv.org/abs/2502.19651v1
Date: Thu, 27 Feb 2025 00:49:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.669659
Title: Unlocking Multi-Modal Potentials for Dynamic Text-Attributed Graph Representation
Title（参考訳）: 動的テキスト属性グラフ表現のためのマルチモーダルポテンシャルのアンロック
Authors: Yuanyuan Xu, Wenjie Zhang, Ying Zhang, Xuemin Lin, Xiwei Xu,
Abstract要約: Dynamic Text-Attributed Graphs (DyTAGs)は、リッチテキスト属性とともに進化する時間的エッジをキャプチャする新しいグラフパラダイムである。 MoMentはモデルに依存しないマルチモーダルフレームワークで、動的グラフモデルとシームレスに統合して構造的モダリティ学習を行うことができる。 MoMentは4つの動的グラフモデルを使用して、ベースラインに対して最大33.62%の改善を達成している。
参考スコア（独自算出の注目度）: 28.533930417703715
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Dynamic Text-Attributed Graphs (DyTAGs) are a novel graph paradigm that captures evolving temporal edges alongside rich textual attributes. A prior approach to representing DyTAGs leverages pre-trained language models to encode text attributes and subsequently integrates them into dynamic graph models. However, it follows edge-centric modeling, as in dynamic graph learning, which is limited in local structures and fails to exploit the unique characteristics of DyTAGs, leading to suboptimal performance. We observe that DyTAGs inherently comprise three distinct modalities-temporal, textual, and structural-often exhibiting dispersed or even orthogonal distributions, with the first two largely overlooked in existing research. Building on this insight, we propose MoMent, a model-agnostic multi-modal framework that can seamlessly integrate with dynamic graph models for structural modality learning. The core idea is to shift from edge-centric to node-centric modeling, fully leveraging three modalities for node representation. Specifically, MoMent presents non-shared node-centric encoders based on the attention mechanism to capture global temporal and semantic contexts from temporal and textual modalities, together with local structure learning, thus generating modality-specific tokens. To prevent disjoint latent space, we propose a symmetric alignment loss, an auxiliary objective that aligns temporal and textual tokens, ensuring global temporal-semantic consistency with a theoretical guarantee. Last, we design a lightweight adaptor to fuse these tokens, generating comprehensive and cohesive node representations. We theoretically demonstrate that MoMent enhances discriminative power over exclusive edge-centric modeling. Extensive experiments across seven datasets and two downstream tasks show that MoMent achieves up to 33.62% improvement against the baseline using four dynamic graph models.
Abstract（参考訳）: Dynamic Text-Attributed Graphs (DyTAGs)は、リッチテキスト属性とともに進化する時間的エッジをキャプチャする新しいグラフパラダイムである。 DyTAGを表現するための以前のアプローチは、事前訓練された言語モデルを利用してテキスト属性をエンコードし、その後動的グラフモデルに統合する。しかし、局所構造に制限があり、DyTAGのユニークな特性を活用できない動的グラフ学習のように、エッジ中心のモデリングに従えば、準最適性能が得られる。我々はDyTAGが本質的に3つの異なるモーダル性-時間的、テキスト的、構造的-しばしば分散された、あるいは直交的な分布を含むことを観察し、最初の2つは既存の研究でほとんど見落とされてしまった。この知見に基づいて、構造的モダリティ学習のための動的グラフモデルとシームレスに統合可能なモデルに依存しないマルチモーダルフレームワークであるMoMentを提案する。中心となる考え方は、エッジ中心からノード中心のモデリングにシフトし、ノード表現に3つのモダリティを完全に活用することである。特に、MoMentは、時間的・テキスト的なモーダル性からグローバルな時間的・意味的な文脈を捉え、局所的な構造学習とともに、非共有ノード中心のエンコーダをアテンション機構に基づいて提示し、モダリティ固有のトークンを生成する。そこで本稿では,時間的およびテキスト的トークンの整合性を確保するための補助的目的である対称アライメント損失を理論的保証とともに大域的時間的・意味的整合性を確保することを提案する。最後に、これらのトークンを融合させる軽量適応器を設計し、包括的で凝集性の高いノード表現を生成する。理論的には、MoMentは排他的エッジ中心モデリングよりも識別力を高める。 7つのデータセットと2つの下流タスクにわたる大規模な実験により、MoMentは4つの動的グラフモデルを使用してベースラインに対して最大33.62%の改善を達成した。

関連論文リスト

Hybrid Hypergraph Networks for Multimodal Sequence Data Classification [9.688069013427057]
本稿では,時間的マルチモーダルデータをセグメンテーションファースト,グラフ後処理によってモデル化するハイブリッドハイパーグラフネットワーク(HHN)を提案する。 HHNは4つのマルチモーダルデータセットに対して最先端の結果を達成し、複雑な分類タスクにおいてその有効性を示す。
論文参考訳（メタデータ） (2025-07-30T12:13:05Z)
Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex [0.16385815610837165]
BiGTexは、スタック化されたGraph-Text Fusion Unitを通じてGNNとLLMを密に統合する新しいアーキテクチャである。 BiGTexはノード分類における最先端性能を実現し、リンク予測に効果的に一般化する。
論文参考訳（メタデータ） (2025-04-16T20:25:11Z)
Unifying Text Semantics and Graph Structures for Temporal Text-attributed Graphs with Large Language Models [19.710059031046377]
時間グラフニューラルネットワーク(TGNN)は時間グラフモデリングにおいて顕著な性能を示した。 TTAGモデリングのための既存のTGNNをシームレスに拡張する新しいフレームワークである textbfCross を提案する。
論文参考訳（メタデータ） (2025-03-18T16:50:10Z)
EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。 EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-14T12:21:26Z)
Matcha: Mitigating Graph Structure Shifts with Test-Time Adaptation [66.40525136929398]
テスト時間適応(TTA)は、ソースドメインに再アクセスすることなく、トレーニング済みのモデルをターゲットドメインに適応できる能力によって注目を集めている。グラフの構造シフトへの効果的かつ効率的な適応を目的とした,革新的なフレームワークであるMatchaを提案する。合成と実世界の両方のデータセットに対するMatchaの有効性を検証し、構造と属性シフトの様々な組み合わせにおける頑健さを実証した。
論文参考訳（メタデータ） (2024-10-09T15:15:40Z)
A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。 GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文参考訳（メタデータ） (2024-06-19T22:30:08Z)
Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文参考訳（メタデータ） (2024-05-28T20:54:47Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
Unified and Dynamic Graph for Temporal Character Grouping in Long Videos [31.192044026127032]
ビデオ時間的キャラクタグループ化は、ビデオ内の主要なキャラクタの出現モーメントを、そのアイデンティティに応じて特定する。最近の研究は、教師なしクラスタリングからグラフベースのクラスタリングへと進化してきた。時間的文字グループ化のための統一動的グラフ(UniDG)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-27T13:22:55Z)
Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文参考訳（メタデータ） (2023-08-24T20:46:48Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
GrannGAN: Graph annotation generative adversarial networks [72.66289932625742]
本稿では,高次元分布をモデル化し,グラフスケルトンと整合した複雑な関係特徴構造を持つデータの新しい例を生成することの問題点を考察する。提案するモデルは,タスクを2つのフェーズに分割することで,各データポイントのグラフ構造に制約されたデータ特徴を生成する問題に対処する。第一に、与えられたグラフのノードに関連する機能の分布をモデル化し、第二に、ノードのフィーチャに条件付きでエッジ機能を補完する。
論文参考訳（メタデータ） (2022-12-01T11:49:07Z)
DyTed: Disentangled Representation Learning for Discrete-time Dynamic Graph [59.583555454424]
離散時間動的グラフ、すなわちDyTedのための新しいディペンタングル表現学習フレームワークを提案する。本研究では,時間不変の表現と時間変動の表現を効果的に識別する構造的コントラスト学習とともに,時間的クリップのコントラスト学習タスクを特別に設計する。
論文参考訳（メタデータ） (2022-10-19T14:34:12Z)
TCL: Transformer-based Dynamic Graph Modelling via Contrastive Learning [87.38675639186405]
我々は,動的に進化するグラフを連続的に扱う,TCLと呼ばれる新しいグラフニューラルネットワークアプローチを提案する。我々の知る限りでは、これは動的グラフ上の表現学習にコントラスト学習を適用する最初の試みである。
論文参考訳（メタデータ） (2021-05-17T15:33:25Z)
GraphFormers: GNN-nested Transformers for Representation Learning on Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文参考訳（メタデータ） (2021-05-06T12:20:41Z)
Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。これらのグラフは通常不完全であり、自動補完を促す。グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文参考訳（メタデータ） (2020-04-30T13:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。