論文の概要: GOMA: Toward Structure-Driven Multimodal Alignment from a Graph Signal Smoothing Perspective
- arxiv url: http://arxiv.org/abs/2605.15723v1
- Date: Fri, 15 May 2026 08:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.217979
- Title: GOMA: Toward Structure-Driven Multimodal Alignment from a Graph Signal Smoothing Perspective
- Title(参考訳): GOMA: グラフ信号平滑化の観点からの構造駆動型マルチモーダルアライメントを目指して
- Authors: Xu Wang, Xunkai Li, Yinlin Zhu, Rong-Hua Li, Guoren Wang,
- Abstract要約: 凍結したマルチモーダル埋め込みをグラフ信号として見る構造駆動のポストアライメントフレームワークを提案する。
GOMAは、メッセージがどこに流れるべきか、マルチモーダルエビデンスがどのように伝播するか、どのスムーズな深さを維持するべきかという3つの重要な設計選択を分離している。
すべての実験は、グラフがラベルのないコンテキストとしてのみ機能し、対角方向の自己対向エッジを除去する、トランスダクティブなMAG検索プロトコルに従う。
- 参考スコア(独自算出の注目度): 39.44851011793204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal alignment is commonly learned from isolated image-text pairs via CLIP-style dual encoders, leaving the relational context among entities largely unused. Multimodal attributed graphs (MAGs), where nodes carry multimodal attributes and edges encode corpus structure, provide a natural setting for refining frozen vision-language embeddings. This refinement is challenging: visual, textual, and cross-modal relations often induce different neighborhood geometries, while unrestricted graph propagation can quickly over-smooth retrieval representations. Effectively leveraging graph context therefore requires simultaneously breaking modality-specific topological barriers, controlling the smoothing regime, and preserving informative smoothing before semantic boundaries collapse. We propose Graph-Optimized Multimodal Alignment (GOMA), a structure-driven post-alignment framework that views frozen multimodal embeddings as graph signals and addresses these requirements through a unified retrieval-oriented design. GOMA decouples three key design choices: where messages should flow, how multimodal evidence should propagate, and which smoothing depth should be retained. Concretely, it learns modality-aware propagation operators, performs finite-step coupled smoothing without diagonal cross-modal shortcuts, and adaptively reads out node-specific smoothing trajectories to preserve useful smoothing before collapse. All experiments follow a transductive MAG retrieval protocol where the graph serves only as unlabeled context and diagonal self-pair edges are removed. On seven MAG benchmarks, GOMA achieves state-of-the-art or tied state-of-the-art retrieval and remains substantially more stable than the strongest graph competitor, demonstrating that MAG structure can serve as an effective post-encoder for frozen multimodal embeddings.
- Abstract(参考訳): マルチモーダルアライメントは、CLIPスタイルのデュアルエンコーダを通じて、分離された画像テキストペアから一般的に学習され、リレーショナルコンテキストは、ほとんど使われていない。
マルチモーダル属性グラフ(MAG)では、ノードがマルチモーダル属性を持ち、エッジがコーパス構造をエンコードする。
視覚的、テキスト的、横断的な関係は、しばしば異なる近傍のジオメトリーを誘導するが、制限のないグラフの伝播は、素早く滑らかな検索表現を表現できる。
したがって、グラフコンテキストを効果的に活用するには、モダリティ固有の位相障壁を同時に破壊し、平滑化体制を制御し、セマンティックバウンダリが崩壊する前に情報平滑化を保存する必要がある。
本稿では,凍結したマルチモーダル埋め込みをグラフ信号とみなす構造駆動のポストアライメントフレームワークであるGraph-Optimized Multimodal Alignment (GOMA)を提案する。
GOMAは、メッセージがどこに流れるべきか、マルチモーダルエビデンスがどのように伝播するか、どのスムーズな深さを維持するべきかという3つの重要な設計選択を分離している。
具体的には、モジュラリティ対応の伝搬演算子を学習し、斜め交差ショートカットなしで有限ステップ結合平滑化を行い、ノード固有の平滑化軌道を適応的に読み出して、崩壊前に有用な平滑化を維持する。
すべての実験は、グラフがラベルのないコンテキストとしてのみ機能し、対角方向の自己対向エッジを除去する、トランスダクティブなMAG検索プロトコルに従う。
7つのMAGベンチマークにおいて、GOMAは最先端または結びついた最先端の検索を達成し、最強のグラフ競合よりもかなり安定であり、MAG構造が凍結マルチモーダル埋め込みの効果的な後エンコーダとして機能することを実証している。
関連論文リスト
- STAGE: Tackling Semantic Drift in Multimodal Federated Graph Learning [48.96526409527749]
フェデレーショングラフ学習(FGL)は、複数のクライアントにわたるグラフデータの協調トレーニングを可能にする。
鍵となる課題は、異なるモダリティドメインのクライアントが共通のセマンティックスペースを共有していないことだ。
MM-FGLのためのプロトコルファーストフレームワークである textbfSTAGE を提案する。
論文 参考訳(メタデータ) (2026-05-12T10:35:43Z) - Robust Multimodal Recommendation via Graph Retrieval-Enhanced Modality Completion [71.20734649881258]
実世界のマルチモーダルデータセットは、センサーの故障、アノテーションの不足、プライバシーの制約によって、しばしばモダリティの不完全性に悩まされる。
効果的な解決策の1つはモダリティ補完であり、下流タスクのためのモダリティ完全グラフを提供するために欠落した特徴を再構成する。
本稿では,これらの制限を克服するグラフ検索拡張モード補完フレームワークであるGRE-MCを提案する。
論文 参考訳(メタデータ) (2026-05-01T13:50:52Z) - Multimodal Structure Learning: Disentangling Shared and Specific Topology via Cross-Modal Graphical Lasso [12.238577096609761]
解釈可能なマルチモーダル表現を学習するためのCross-Modal Graphical Lasso(CM-GLasso)を提案する。
新たなテキスト視覚化戦略と統合された視覚言語エンコーダを結合することにより、マルチモーダルな特徴を共有潜在空間に厳密に整列する。
CM-GLassoは、生成的分類と密接なセマンティックセグメンテーションタスクにおいて、新しい最先端技術を確立していることを示す。
論文 参考訳(メタデータ) (2026-04-05T04:07:59Z) - TMTE: Effective Multimodal Graph Learning with Task-aware Modality and Topology Co-evolution [12.027339810975079]
Task-Aware Modality and Topology co-Evolution (TMTE)は、グラフトポロジとマルチモーダル表現を協調的に目標タスクに向けて最適化する新しいMGLフレームワークである。
TMTEは、6つのグラフ中心およびモダリティ中心のタスクにまたがる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2026-03-29T14:54:59Z) - Mario: Multimodal Graph Reasoning with Large Language Models [10.232888977666418]
Marioはグラフ条件のVLMで、微粒なクロスモーダルコントラスト学習によってテキストや視覚的特徴を洗練する。
Marioは、ノード分類とリンク予測のための教師付きシナリオとゼロショットシナリオの両方において、最先端のグラフモデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-03-05T13:49:41Z) - Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - OptiMAG: Structure-Semantic Alignment via Unbalanced Optimal Transport [37.640303159988015]
マルチモーダル分散グラフ(MAG)は、テキストや画像などのマルチモーダル情報をノード上で統合することにより、複雑なシステムのモデリングに広く採用されている。
異なるモダリティ埋め込みによって誘導される暗黙的な意味構造と明示的なグラフ構造との相違を同定する。
既存のメソッドは通常、固定された明示的なグラフ構造上でメッセージパッシングを実行するため、それらは必然的に異なる特徴を集約する。
我々は,不均衡な最適輸送に基づく正規化フレームワークOptiMAGを提案する。
論文 参考訳(メタデータ) (2026-01-30T11:29:03Z) - Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:15Z) - Learning Noise-Resilient and Transferable Graph-Text Alignment via Dynamic Quality Assessment [19.204800655283744]
テキスト分散グラフ(TAG)上のGFM(Pre-training Graph Foundation Models)は、検索、レコメンデーション、知識発見などのWebスケールアプリケーションの中心である。
ノードとテキスト間の厳密な1対1対応を前提としており、さまざまなデータ品質に適応できない静的アライメントの目標に依存しているため、ノイズの多い監視下では不安定である。
我々は,多対多の表現と保守的な一対一の目的を,監督品質に応じて動的に調整する品質対応グラフテキストアライメントフレームワークADAlignerを提案する。
論文 参考訳(メタデータ) (2025-10-22T09:01:17Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。