論文の概要: Topological Alignment of Shared Vision-Language Embedding Space
- arxiv url: http://arxiv.org/abs/2510.10889v1
- Date: Mon, 13 Oct 2025 01:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.142211
- Title: Topological Alignment of Shared Vision-Language Embedding Space
- Title(参考訳): 共有視界埋め込み空間のトポロジアライメント
- Authors: Junwon You, Dasol Kang, Jae-Hun Jung,
- Abstract要約: ToMCLIPは、トポロジ保存制約で埋め込み空間を整列するトポロジ対応フレームワークである。
マルチリンガル表現の構造コヒーレンスの向上,CIFAR-100でのゼロショット精度の向上,およびxFlickr&COでのマルチリンガル検索性能の向上を示す。
- 参考スコア(独自算出の注目度): 5.5522557994489246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Vision-Language Models (VLMs) have demonstrated strong zero-shot capabilities. However, their cross-modal alignment remains biased toward English due to limited multilingual multimodal data. Recent multilingual extensions have alleviated this gap but enforce instance-level alignment while neglecting the global geometry of the shared embedding space. We address this problem by introducing ToMCLIP (Topological Alignment for Multilingual CLIP), a topology-aware framework aligning embedding spaces with topology-preserving constraints. The proposed method applies persistent homology to define a topological alignment loss and approximates persistence diagram with theoretical error bounds using graph sparsification strategy. This work validates the proposed approach, showing enhanced structural coherence of multilingual representations, higher zero-shot accuracy on the CIFAR-100, and stronger multilingual retrieval performance on the xFlickr&CO. Beyond VLMs, the proposed approach provides a general method for incorporating topological alignment into representation learning.
- Abstract(参考訳): 対照的に、VLM (Contrastive Vision-Language Models) は強力なゼロショット機能を示している。
しかし、そのクロスモーダルアライメントは、限られた多言語マルチモーダルデータのために、英語に偏っている。
最近の多言語拡張は、このギャップを緩和しているが、共有埋め込み空間のグローバルな幾何学を無視しながら、インスタンスレベルのアライメントを強制している。
ToMCLIP(Topological Alignment for Multilingual CLIP)は,トポロジ保存制約と埋め込み空間の整合性を考慮したトポロジ対応フレームワークである。
提案手法は、トポロジ的アライメント損失を定義するために永続的ホモロジーを適用し、グラフスペーシフィケーション戦略を用いて理論誤差境界を持つ永続化図を近似する。
本研究は,多言語表現の構造コヒーレンスの向上,CIFAR-100でのゼロショット精度の向上,xFlickr&COでの多言語検索性能の向上など,提案手法の有効性を検証した。
VLM以外にも、提案手法は、トポロジカルアライメントを表現学習に組み込むための一般的な方法を提供する。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Multi-Scale Manifold Alignment for Interpreting Large Language Models: A Unified Information-Geometric Framework [4.935224714809964]
我々は,LLM表現を局所的,中間的,大域的多様体に分解する情報幾何学的フレームワークであるマルチスケールマニフォールドアライメント(MSMA)を提案する。
我々は一貫した階層パターンを観察し、MSMAが複数の推定値の下でアライメントの指標を改善することを発見した。
異なるスケールでの制御された介入は、語彙の多様性、文構造、談話のコヒーレンスに区別され、アーキテクチャに依存した効果をもたらす。
論文 参考訳(メタデータ) (2025-05-24T10:25:58Z) - LAGO: Few-shot Crosslingual Embedding Inversion Attacks via Language Similarity-Aware Graph Optimization [4.274520108617021]
LAGOは、数発の言語間埋め込みインバージョンアタックのための新しいアプローチである。
グラフベースの制約付き分散最適化フレームワークを通じて言語関係を明示的にモデル化する。
実験により、ベースラインよりも10~20%のルージュ-Lスコアが増加し、攻撃の転送可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T20:48:24Z) - Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension [31.952192907460713]
Relation-R1は、テキストファーストの統一関係理解フレームワークである。
認知連鎖(CoT)誘導型微調整(SFT)とグループ相対政策最適化(GRPO)を統合している。
広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-20T14:50:49Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して-
マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。
ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文 参考訳(メタデータ) (2024-12-03T16:53:58Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。