論文の概要: Topology-Aware Representation Alignment for Semi-Supervised Vision-Language Learning
- arxiv url: http://arxiv.org/abs/2604.26370v1
- Date: Wed, 29 Apr 2026 07:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.293193
- Title: Topology-Aware Representation Alignment for Semi-Supervised Vision-Language Learning
- Title(参考訳): 半教師付き視覚言語学習のためのトポロジ対応表現アライメント
- Authors: Junwon You, Mihyun Jang, Sangwoo Mo, Jae-Hun Jung,
- Abstract要約: 視覚言語学習のためのトポロジ対応マルチモーダル表現アライメント(ToMA)を提案する。
ToMAは、有能なエッジを識別し、利用可能なクロスモーダル通信を通じてモダリティを横断してアライメントする。
実験により、ToMAは、リモートセンシングの改善とファッション検索における一貫した利点により、安定した利得が得られることが示された。
- 参考スコア(独自算出の注目度): 12.074231630572067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have shown strong performance, but they often generalize poorly to specialized domains. While semi-supervised vision-language learning mitigates this limitation by leveraging a small set of labeled image-text pairs together with abundant unlabeled images, existing methods remain fundamentally pairwise and fail to model the global structure of multimodal representation manifolds. Existing topology-based alignment methods rely on persistence diagram matching, which neither guarantees geometric alignment nor utilizes the image-text pairing information central to vision-language learning. We propose Topology-Aware Multimodal Representation Alignment (ToMA), a framework that uses persistent homology to identify topologically salient edges and aligns them across modalities through available cross-modal correspondences. ToMA leverages both H_0-death edges and lightweight H_1-birth edges, allowing it to capture both connectivity and cycle structure without constructing 2-simplices. Experiments show that ToMA yields stable gains, with clear improvements on remote sensing and modest but consistent benefits on fashion retrieval. Additional analysis shows that ToMA is more stable than alternative topology-based objectives and that lightweight H_1-birth edges provide useful higher-order structural signals.
- Abstract(参考訳): 視覚言語モデルは強い性能を示してきたが、しばしば専門領域にはあまり一般化しない。
半教師付き視覚言語学習は、ラベル付き画像テキスト対と豊富なラベル付き画像を活用することでこの制限を緩和するが、既存の手法は基本的にペアワイズであり、マルチモーダル表現多様体のグローバル構造をモデル化することができない。
既存のトポロジベースのアライメント手法は、幾何的アライメントを保証せず、視覚言語学習の中心となる画像とテキストのペアリング情報を利用できない永続図マッチングに依存している。
ToMA(Topology-Aware Multimodal Representation Alignment)は、永続的ホモロジーを用いて、トポロジ的に有意なエッジを識別し、利用可能なクロスモーダル対応を通じてモダリティ間で整列するフレームワークである。
ToMAは、H_0死縁と軽量なH_1生長縁の両方を活用し、2-simpliceを構築することなく、接続性とサイクル構造の両方をキャプチャできる。
実験により、ToMAは、リモートセンシングの改善とファッション検索における一貫した利点により、安定した利得が得られることが示された。
さらなる分析により、ToMAは代替トポロジーに基づく目的よりも安定であり、軽量なH_1生成エッジはより高次構造信号を提供することが示された。
関連論文リスト
- Hyperbolic Enhanced Representation Learning for Incomplete Multi-view Clustering [57.38215918201251]
本稿では,不完全なマルチビュークラスタリングのためのハイパーボリック拡張表現学習フレームワークであるHERLを提案する。
ポアンカレボール内で操作すると、HERLは表現学習を強化するために構造を意識した潜在空間を構築する。
HERLは最先端のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-04-18T10:50:46Z) - Multimodal Structure Learning: Disentangling Shared and Specific Topology via Cross-Modal Graphical Lasso [12.238577096609761]
解釈可能なマルチモーダル表現を学習するためのCross-Modal Graphical Lasso(CM-GLasso)を提案する。
新たなテキスト視覚化戦略と統合された視覚言語エンコーダを結合することにより、マルチモーダルな特徴を共有潜在空間に厳密に整列する。
CM-GLassoは、生成的分類と密接なセマンティックセグメンテーションタスクにおいて、新しい最先端技術を確立していることを示す。
論文 参考訳(メタデータ) (2026-04-05T04:07:59Z) - Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - Bridging Structure and Appearance: Topological Features for Robust Self-Supervised Segmentation [8.584363058858935]
自己教師付きセマンティックセグメンテーション法は、外観の曖昧さに直面して失敗することが多い。
これは、影、光沢、局所的なテクスチャといった不安定で外観に基づく特徴に過度に依存しているためである、と我々は主張する。
安定な位相情報を活用することで外観と幾何学を橋渡しする新しいフレームワークである textbfGASeg を提案する。
論文 参考訳(メタデータ) (2025-12-30T05:34:28Z) - Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:15Z) - Topological Alignment of Shared Vision-Language Embedding Space [5.5522557994489246]
ToMCLIPは、トポロジ保存制約で埋め込み空間を整列するトポロジ対応フレームワークである。
マルチリンガル表現の構造コヒーレンスの向上,CIFAR-100でのゼロショット精度の向上,およびxFlickr&COでのマルチリンガル検索性能の向上を示す。
論文 参考訳(メタデータ) (2025-10-13T01:36:38Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - TFANet: Three-Stage Image-Text Feature Alignment Network for Robust Referring Image Segmentation [8.48847068018671]
本稿では,3段階画像テキスト特徴アライメントネットワークであるTFANetを提案する。
KPS(Knowledge Plus Stage)、KFS(Knowledge Fusion Stage)、KIS(Knowledge Intensification Stage)の3段階からなる階層的なフレームワークを通じて、マルチモーダルアライメントを強化する。
KPSでは,画像領域と言語記述の異なる粒度とのリッチで効率的なアライメントを確立する,MLAM(Multiscale Linear Cross-Attention Module)を設計する。
KFSはさらに、クロスモーダル・フィーチャー・スキャン・モジュール(CFSM)による機能アライメントを強化し、長距離依存関係のキャプチャにマルチモーダル選択的スキャンを適用した。
論文 参考訳(メタデータ) (2025-09-16T13:26:58Z) - MegaSR: Mining Customized Semantics and Expressive Guidance for Image Super-Resolution [76.30559905769859]
MegaSRは、カスタマイズされたブロックワイドセマンティクスと拡散ベースのISRのための表現的ガイダンスをマイニングする。
我々は,HEDエッジマップ,深度マップ,セグメンテーションマップを最も表現力のあるガイダンスとして実験的に同定した。
大規模な実験は、意味的豊かさと構造的整合性の観点からMegaSRの優位性を示す。
論文 参考訳(メタデータ) (2025-03-11T07:00:20Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。