論文の概要: HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment
- arxiv url: http://arxiv.org/abs/2511.06653v1
- Date: Mon, 10 Nov 2025 03:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.046646
- Title: HiMo-CLIP: Modeling Semantic Hierarchy and Monotonicity in Vision-Language Alignment
- Title(参考訳): HiMo-CLIP:視覚言語アライメントにおける意味的階層性と単調性をモデル化する
- Authors: Ruijia Wu, Ping Chen, Fei Shen, Shaoan Zhao, Qiang Hui, Huanlin Gao, Ting Lu, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian,
- Abstract要約: HiMo-CLIPは、エンコーダアーキテクチャを変更することなくCLIPスタイルのモデルを強化する表現レベルフレームワークである。
HiMo-CLIPは2つの重要なコンポーネントを導入している: 階層分解(HiDe)モジュール。
複数の画像テキスト検索ベンチマークの実験は、HiMo-CLIPが強いベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 13.584710249222105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive vision-language models like CLIP have achieved impressive results in image-text retrieval by aligning image and text representations in a shared embedding space. However, these models often treat text as flat sequences, limiting their ability to handle complex, compositional, and long-form descriptions. In particular, they fail to capture two essential properties of language: semantic hierarchy, which reflects the multi-level compositional structure of text, and semantic monotonicity, where richer descriptions should result in stronger alignment with visual content.To address these limitations, we propose HiMo-CLIP, a representation-level framework that enhances CLIP-style models without modifying the encoder architecture. HiMo-CLIP introduces two key components: a hierarchical decomposition (HiDe) module that extracts latent semantic components from long-form text via in-batch PCA, enabling flexible, batch-aware alignment across different semantic granularities, and a monotonicity-aware contrastive loss (MoLo) that jointly aligns global and component-level representations, encouraging the model to internalize semantic ordering and alignment strength as a function of textual completeness.These components work in concert to produce structured, cognitively-aligned cross-modal representations. Experiments on multiple image-text retrieval benchmarks show that HiMo-CLIP consistently outperforms strong baselines, particularly under long or compositional descriptions. The code is available at https://github.com/UnicomAI/HiMo-CLIP.
- Abstract(参考訳): CLIPのような対照的な視覚言語モデルは、画像とテキストの表現を共有埋め込み空間で整列させることで、画像テキスト検索において印象的な結果を得た。
しかしながら、これらのモデルはテキストを平らなシーケンスとして扱うことが多く、複雑な、構成的な、長い形式の記述を扱う能力を制限する。
特に,テキストの多レベル構成構造を反映したセマンティック階層と,よりリッチな記述が視覚的内容との整合性を強くするセマンティックモノトニック性という2つの言語の本質的特性を捉えることができず,これらの制約に対処するために,エンコーダアーキテクチャを変更することなくCLIPスタイルのモデルを強化する表現レベルフレームワークであるHiMo-CLIPを提案する。
HiMo-CLIPは2つの主要なコンポーネントを導入している: 階層分解(HiDe)モジュールは、長い形式のテキストからバッチPCAを介して潜在意味コンポーネントを抽出し、異なる意味的粒度をまたいだ柔軟なバッチ認識アライメントを可能にする。
複数の画像テキスト検索ベンチマークの実験では、HiMo-CLIPは、特に長いまたは構成的な記述の下で、強いベースラインを一貫して上回っている。
コードはhttps://github.com/UnicomAI/HiMo-CLIPで入手できる。
関連論文リスト
- SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。
本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。
私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文 参考訳(メタデータ) (2024-09-12T16:46:41Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Structured Multi-modal Feature Embedding and Alignment for
Image-Sentence Retrieval [12.050958976545914]
現在の最先端画像文検索手法は、視覚的テクスチャの断片を暗黙的に整列させる。
画像文検索のための構造的マルチモーダル特徴埋め込みとアライメントモデルを提案する。
特に、ビジュアルコンテキスト対応構造化木エンコーダ(VCS-Tree)とテキストコンテキスト対応構造化木エンコーダ(TCS-Tree)を共有ラベルで構築することにより、視覚的およびテキスト的フラグメントの関係をモデル化する。
論文 参考訳(メタデータ) (2021-08-05T07:24:54Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。