論文の概要: SmartCLIP: Modular Vision-language Alignment with Identification Guarantees
- arxiv url: http://arxiv.org/abs/2507.22264v1
- Date: Tue, 29 Jul 2025 22:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.887226
- Title: SmartCLIP: Modular Vision-language Alignment with Identification Guarantees
- Title(参考訳): SmartCLIP: 識別保証付きモジュール型視覚言語アライメント
- Authors: Shaoan Xie, Lingjing Kong, Yujia Zheng, Yu Yao, Zeyu Tang, Eric P. Xing, Guangyi Chen, Kun Zhang,
- Abstract要約: Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
- 参考スコア(独自算出の注目度): 59.16312652369709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP)~\citep{radford2021learning} has emerged as a pivotal model in computer vision and multimodal learning, achieving state-of-the-art performance at aligning visual and textual representations through contrastive learning. However, CLIP struggles with potential information misalignment in many image-text datasets and suffers from entangled representation. On the one hand, short captions for a single image in datasets like MSCOCO may describe disjoint regions in the image, leaving the model uncertain about which visual features to retain or disregard. On the other hand, directly aligning long captions with images can lead to the retention of entangled details, preventing the model from learning disentangled, atomic concepts -- ultimately limiting its generalization on certain downstream tasks involving short prompts. In this paper, we establish theoretical conditions that enable flexible alignment between textual and visual representations across varying levels of granularity. Specifically, our framework ensures that a model can not only \emph{preserve} cross-modal semantic information in its entirety but also \emph{disentangle} visual representations to capture fine-grained textual concepts. Building on this foundation, we introduce \ours, a novel approach that identifies and aligns the most relevant visual and textual representations in a modular manner. Superior performance across various tasks demonstrates its capability to handle information misalignment and supports our identification theory. The code is available at https://github.com/Mid-Push/SmartCLIP.
- Abstract(参考訳): Contrastive Language-Image Pre-Training (CLIP)~\citep{radford2021learning} は、コンピュータビジョンとマルチモーダルラーニングにおいて重要なモデルとして登場し、コントラッシブラーニングを通して視覚的およびテキスト的表現を整合させることで、最先端のパフォーマンスを達成する。
しかし、CLIPは多くの画像テキストデータセットの潜在的な情報ミスアライメントに悩まされており、絡み合った表現に悩まされている。
一方、MSCOCOのようなデータセットにおける単一の画像の短いキャプションは、画像内の不整合領域を記述し、どの視覚的特徴を保持するか、無視するかをモデルに残している。
一方、長いキャプションを画像と直列に合わせることで、絡み合った詳細が保持され、モデルが歪んだ原子概念を学習することを防ぎ、最終的には短いプロンプトを含む特定の下流タスクへの一般化を制限する。
本稿では,テキスト表現と視覚表現のフレキシブルなアライメントを可能にする理論的条件を,粒度の異なるレベルにわたって確立する。
特に,本フレームワークは, モデルが全体において, 横断的意味情報だけでなく, 微粒なテクスチャ概念を捉えるために, 視覚表現のemph{disentangle} も可能であることを保証している。
この基盤の上に構築された \ours は,最も関連性の高い視覚的およびテキスト的表現をモジュール化された方法で識別・調整する,新しいアプローチである。
様々なタスクにおける上位性能は、情報の不整合を扱う能力を示し、識別理論をサポートする。
コードはhttps://github.com/Mid-Push/SmartCLIPで入手できる。
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。