論文の概要: StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues
- arxiv url: http://arxiv.org/abs/2602.20089v3
- Date: Mon, 02 Mar 2026 08:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 15:39:03.818629
- Title: StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues
- Title(参考訳): StructXLIP:マルチモーダル構造キューによる視覚言語モデルの強化
- Authors: Zanxi Ruan, Songqun Gao, Qiuyu Kong, Yiming Wang, Marco Cristani,
- Abstract要約: 画像の視覚構造のためのプロキシとしてエッジマップを抽出する微調整アライメントパラダイムであるStructXLIPを紹介する。
微調整は3つの構造中心の損失で標準アライメント損失を増大させる。
提案手法は, 今後のアプローチに統合可能な, 一般的なブースティングレシピとして機能する。
- 参考スコア(独自算出の注目度): 12.94672471629668
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Edge-based representations are fundamental cues for visual understanding, a principle rooted in early vision research and still central today. We extend this principle to vision-language alignment, showing that isolating and aligning structural cues across modalities can greatly benefit fine-tuning on long, detail-rich captions, with a specific focus on improving cross-modal retrieval. We introduce StructXLIP, a fine-tuning alignment paradigm that extracts edge maps (e.g., Canny), treating them as proxies for the visual structure of an image, and filters the corresponding captions to emphasize structural cues, making them "structure-centric". Fine-tuning augments the standard alignment loss with three structure-centric losses: (i) aligning edge maps with structural text, (ii) matching local edge regions to textual chunks, and (iii) connecting edge maps to color images to prevent representation drift. From a theoretical standpoint, while standard CLIP maximizes the mutual information between visual and textual embeddings, StructXLIP additionally maximizes the mutual information between multimodal structural representations. This auxiliary optimization is intrinsically harder, guiding the model toward more robust and semantically stable minima, enhancing vision-language alignment. Beyond outperforming current competitors on cross-modal retrieval in both general and specialized domains, our method serves as a general boosting recipe that can be integrated into future approaches in a plug-and-play manner. Code and pretrained models are publicly available at: https://github.com/intelligolabs/StructXLIP.
- Abstract(参考訳): エッジベースの表現は視覚的理解の基本的な手がかりであり、初期の視覚研究に根ざした原理であり、現在でも中心となっている。
我々は、この原理を視覚言語アライメントに拡張し、モダリティをまたいだ構造的手がかりの分離と整列は、長い細部豊かなキャプションの微調整に大いに役立ち、クロスモーダル検索の改善に特に重点を置いていることを示す。
エッジマップ(例えば、Canny)を抽出し、画像の視覚構造のためのプロキシとして扱い、対応するキャプションをフィルタリングして構造的手がかりを強調する、微調整アライメントパラダイムであるStructXLIPを導入する。
ファインチューニングは、3つの構造中心の損失で標準アライメント損失を増大させる。
(i)エッジマップと構造テキストの整合
(二)ローカルエッジ領域とテキストチャンクとのマッチング、
三 エッジマップとカラー画像との接続により、表現の漂流を防止すること。
理論的な観点から、標準のCLIPは視覚とテキストの埋め込みの相互情報を最大化するが、StructXLIPはマルチモーダル構造表現間の相互情報を最大化する。
この補助最適化は本質的に困難であり、より堅牢でセマンティックに安定なミニマに向けてモデルを誘導し、視覚言語アライメントを向上させる。
汎用ドメインと専門ドメインのクロスモーダル検索において、現在の競合相手よりも優れていますが、プラグイン・アンド・プレイ方式で将来のアプローチに統合可能な、一般的な強化レシピとして機能します。
コードと事前訓練されたモデルは、https://github.com/intelligolabs/StructXLIPで公開されている。
関連論文リスト
- StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval [75.28673512571449]
Continual Text-to-Video Retrievalの重要な課題はフィーチャードリフトだ。
我々はCTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。
我々の手法は、常に最先端の連続検索手法より優れています。
論文 参考訳(メタデータ) (2026-01-28T13:34:44Z) - MulCLIP: A Multi-level Alignment Framework for Enhancing Fine-grained Long-context CLIP [4.6096940605642915]
MulCLIPは、画像コンポーネントで自然な長文構造をブリッジするエンドツーエンドフレームワークである。
画像と要約と長いキャプションの間には、グローバルなコントラストの一致が保たれている。
長いテキストシーケンスに対して位置埋め込みを拡張する。
論文 参考訳(メタデータ) (2025-12-08T03:23:41Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Structured Multi-modal Feature Embedding and Alignment for
Image-Sentence Retrieval [12.050958976545914]
現在の最先端画像文検索手法は、視覚的テクスチャの断片を暗黙的に整列させる。
画像文検索のための構造的マルチモーダル特徴埋め込みとアライメントモデルを提案する。
特に、ビジュアルコンテキスト対応構造化木エンコーダ(VCS-Tree)とテキストコンテキスト対応構造化木エンコーダ(TCS-Tree)を共有ラベルで構築することにより、視覚的およびテキスト的フラグメントの関係をモデル化する。
論文 参考訳(メタデータ) (2021-08-05T07:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。