論文の概要: OptiMAG: Structure-Semantic Alignment via Unbalanced Optimal Transport
- arxiv url: http://arxiv.org/abs/2601.22856v1
- Date: Fri, 30 Jan 2026 11:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.406775
- Title: OptiMAG: Structure-Semantic Alignment via Unbalanced Optimal Transport
- Title(参考訳): OptiMAG:不均衡最適輸送による構造意味アライメント
- Authors: Yilong Zuo, Xunkai Li, Zhihan Zhang, Qiangqiang Dai, Ronghua Li, Guoren Wang,
- Abstract要約: マルチモーダル分散グラフ(MAG)は、テキストや画像などのマルチモーダル情報をノード上で統合することにより、複雑なシステムのモデリングに広く採用されている。
異なるモダリティ埋め込みによって誘導される暗黙的な意味構造と明示的なグラフ構造との相違を同定する。
既存のメソッドは通常、固定された明示的なグラフ構造上でメッセージパッシングを実行するため、それらは必然的に異なる特徴を集約する。
我々は,不均衡な最適輸送に基づく正規化フレームワークOptiMAGを提案する。
- 参考スコア(独自算出の注目度): 37.640303159988015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Attributed Graphs (MAGs) have been widely adopted for modeling complex systems by integrating multi-modal information, such as text and images, on nodes. However, we identify a discrepancy between the implicit semantic structure induced by different modality embeddings and the explicit graph structure. For instance, neighbors in the explicit graph structure may be close in one modality but distant in another. Since existing methods typically perform message passing over the fixed explicit graph structure, they inadvertently aggregate dissimilar features, introducing modality-specific noise and impeding effective node representation learning. To address this, we propose OptiMAG, an Unbalanced Optimal Transport-based regularization framework. OptiMAG employs the Fused Gromov-Wasserstein distance to explicitly guide cross-modal structural consistency within local neighborhoods, effectively mitigating structural-semantic conflicts. Moreover, a KL divergence penalty enables adaptive handling of cross-modal inconsistencies. This framework can be seamlessly integrated into existing multimodal graph models, acting as an effective drop-in regularizer. Experiments demonstrate that OptiMAG consistently outperforms baselines across multiple tasks, ranging from graph-centric tasks (e.g., node classification, link prediction) to multimodal-centric generation tasks (e.g., graph2text, graph2image). The source code will be available upon acceptance.
- Abstract(参考訳): マルチモーダル分散グラフ(MAG)は、テキストや画像などのマルチモーダル情報をノード上で統合することにより、複雑なシステムのモデリングに広く採用されている。
しかし、異なるモダリティ埋め込みによって誘導される暗黙的な意味構造と明示的なグラフ構造との相違を同定する。
例えば、明示的なグラフ構造の隣人は、1つのモダリティでは近いが、別のモダリティでは離れている。
既存の手法は通常、固定された明示的なグラフ構造上でメッセージパッシングを行うため、それらは意図せず異種特徴を集約し、モダリティ固有のノイズを導入し、効果的なノード表現学習を妨げる。
そこで我々は,不均衡な最適輸送に基づく正規化フレームワークOptiMAGを提案する。
OptiMAG は、Fused Gromov-Wasserstein 距離を用いて、局所的な地区内でのクロスモーダルな構造的一貫性を明確に導き、構造的・意味的対立を効果的に緩和する。
さらに、KL分散ペナルティは、クロスモーダル不整合の適応的なハンドリングを可能にする。
このフレームワークは既存のマルチモーダルグラフモデルにシームレスに統合することができ、効果的なドロップイン正規化器として機能する。
実験の結果、OptiMAGはグラフ中心タスク(例えば、ノード分類、リンク予測)からマルチモーダル中心生成タスク(例えば、Graph2text、Graph2image)まで、複数のタスクのベースラインを一貫して上回ります。
ソースコードは受理時に入手できる。
関連論文リスト
- LION: A Clifford Neural Paradigm for Multimodal-Attributed Graph Learning [36.90213853456115]
マルチモーダル分布グラフにおけるアライメント・テン・フュージョンを実装するために,LIONを提案する。
まず、クリフォード代数を基底とするモジュラリティ対応幾何多様体を構築する。
この幾何学的に誘導される高次グラフの伝播は、モダリティの相互作用を効率的に達成し、モダリティのアライメントを容易にする。
論文 参考訳(メタデータ) (2026-01-29T09:30:36Z) - Decoupling and Damping: Structurally-Regularized Gradient Matching for Multimodal Graph Condensation [3.2987327415317895]
マルチモーダルグラフに適した新しい凝縮フレームワークSR-GMを提案する。
SR-GMは、ベースライン法と比較して精度を大幅に向上し、収束を加速する。
本研究は,資源制約環境下でのマルチモーダルグラフに基づく学習のためのスケーラブルな方法論を提供する。
論文 参考訳(メタデータ) (2025-11-25T11:50:34Z) - Preventing Representational Rank Collapse in MPNNs by Splitting the Computational Graph [9.498398257062641]
複数の有向非巡回グラフ上での操作が常に我々の条件を満たすことを示し、ノードの厳密な部分順序付けを定義することによってそれらを得る提案をする。
我々は、より情報的なノード表現を実現するために、マルチリレーショナルグラフ上での操作の利点を確認する包括的な実験を行う。
論文 参考訳(メタデータ) (2024-09-17T19:16:03Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。