論文の概要: Multimodal Structure Learning: Disentangling Shared and Specific Topology via Cross-Modal Graphical Lasso
- arxiv url: http://arxiv.org/abs/2604.03953v1
- Date: Sun, 05 Apr 2026 04:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.845688
- Title: Multimodal Structure Learning: Disentangling Shared and Specific Topology via Cross-Modal Graphical Lasso
- Title(参考訳): マルチモーダル構造学習:クロスモーダルグラフィカルラッソによる共有トポロジと特定トポロジの分離
- Authors: Fei Wang, Yutong Zhang, Xiong Wang,
- Abstract要約: 解釈可能なマルチモーダル表現を学習するためのCross-Modal Graphical Lasso(CM-GLasso)を提案する。
新たなテキスト視覚化戦略と統合された視覚言語エンコーダを結合することにより、マルチモーダルな特徴を共有潜在空間に厳密に整列する。
CM-GLassoは、生成的分類と密接なセマンティックセグメンテーションタスクにおいて、新しい最先端技術を確立していることを示す。
- 参考スコア(独自算出の注目度): 12.238577096609761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning interpretable multimodal representations inherently relies on uncovering the conditional dependencies between heterogeneous features. However, sparse graph estimation techniques, such as Graphical Lasso (GLasso), to visual-linguistic domains is severely bottlenecked by high-dimensional noise, modality misalignment, and the confounding of shared versus category-specific topologies. In this paper, we propose Cross-Modal Graphical Lasso (CM-GLasso) that overcomes these fundamental limitations. By coupling a novel text-visualization strategy with a unified vision-language encoder, we strictly align multimodal features into a shared latent space. We introduce a cross-attention distillation mechanism that condenses high-dimensional patches into explicit semantic nodes, naturally extracting spatial-aware cross-modal priors. Furthermore, we unify tailored GLasso estimation and Common-Specific Structure Learning (CSSL) into a joint objective optimized via the Alternating Direction Method of Multiplier (ADMM). This formulation guarantees the simultaneous disentanglement of invariant and class-specific precision matrices without multi-step error accumulation. Extensive experiments across eight benchmarks covering both natural and medical domains demonstrate that CM-GLasso establishes a new state-of-the-art in generative classification and dense semantic segmentation tasks.
- Abstract(参考訳): 解釈可能なマルチモーダル表現の学習は、本質的に不均一な特徴間の条件依存を明らかにすることに依存している。
しかし、グラフィカル・ラッソ(GLasso)のような疎グラフ推定手法は、高次元ノイズ、モダリティの不整合、および共有対カテゴリー固有位相の相違により、視覚言語学領域への重大なボトルネックとなる。
本稿では,これらの基本的な制約を克服するCross-Modal Graphical Lasso (CM-GLasso)を提案する。
新たなテキスト視覚化戦略と統合された視覚言語エンコーダを結合することにより、マルチモーダルな特徴を共有潜在空間に厳密に整列する。
本研究では,高次元パッチを明示的な意味ノードに凝縮するクロスアテンション蒸留機構を導入し,空間認識型クロスモーダル前駆体を自然に抽出する。
さらに,GLasso推定とCSSL(Common-Specific Structure Learning)を,ALMM(Alternating Direction Method of Multiplier)によって最適化された共同目標に統一する。
この定式化により、多段階誤差蓄積を伴わない不変行列とクラス固有の精度行列の同時解離が保証される。
自然領域と医学領域の両方をカバーする8つのベンチマークの広範な実験により、CM-GLassoは、生成的分類と密接なセマンティックセグメンテーションタスクにおいて、新しい最先端技術を確立していることが示された。
関連論文リスト
- PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation [58.1914505657064]
本稿では,クラスレベルのセマンティクスと空間コンテキスト間の知識干渉の課題を軽減するために,単純な並列コストアグリゲーション(PCA-Seg)パラダイムを提案する。
8つのベンチマークの実験では、PCA-Segの各並列ブロックは0.35万のパラメータしか追加せず、最先端のOSPS性能を実現している。
論文 参考訳(メタデータ) (2026-03-18T09:26:43Z) - AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models [21.682989096955467]
AG-VAS(Anchor-Guided Visual Anomaly)は、3つの学習可能なセマンティックアンカートークンでLMM語彙を拡張する新しいフレームワークである。
AG-VASはゼロショット設定で一貫した最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-01T22:25:23Z) - Delving into Spectral Clustering with Vision-Language Representations [27.433418706301477]
本稿では,事前学習された視覚言語モデルにおけるクロスモーダルアライメントを利用したニューラルタンジェントカーネルスペクトルクラスタリングを提案する。
この定式化はクラスタ内の接続を増幅し,クラスタ間のスプリラスな接続を抑えることを示す。
我々の手法は、常に最先端の手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2026-02-10T09:36:24Z) - Toward Effective Multimodal Graph Foundation Model: A Divide-and-Conquer Based Approach [42.970648490410504]
MGFM(Multimodal Graph Foundation Models)は、Multimodal-Attributed Graphs(MAG)におけるリッチなマルチモーダル情報の活用を可能にする。
本稿では,異なる粒度にまたがるモダリティの相互作用とアライメントを分離するために,Divide-and-Conquer戦略を用いた新しいフレームワークPLANETを提案する。
PLANETは,様々なグラフ中心およびマルチモーダル生成タスクにおいて,最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-04T01:05:12Z) - Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-12-29T14:16:21Z) - Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:15Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。