Fugu-MT 論文翻訳(概要): SmartCLIP: Modular Vision-language Alignment with Identification Guarantees

論文の概要: SmartCLIP: Modular Vision-language Alignment with Identification Guarantees

arxiv url: http://arxiv.org/abs/2507.22264v1
Date: Tue, 29 Jul 2025 22:26:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 16:14:17.887226
Title: SmartCLIP: Modular Vision-language Alignment with Identification Guarantees
Title（参考訳）: SmartCLIP: 識別保証付きモジュール型視覚言語アライメント
Authors: Shaoan Xie, Lingjing Kong, Yujia Zheng, Yu Yao, Zeyu Tang, Eric P. Xing, Guangyi Chen, Kun Zhang,
Abstract要約: Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
参考スコア（独自算出の注目度）: 59.16312652369709
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrastive Language-Image Pre-training (CLIP)~\citep{radford2021learning} has emerged as a pivotal model in computer vision and multimodal learning, achieving state-of-the-art performance at aligning visual and textual representations through contrastive learning. However, CLIP struggles with potential information misalignment in many image-text datasets and suffers from entangled representation. On the one hand, short captions for a single image in datasets like MSCOCO may describe disjoint regions in the image, leaving the model uncertain about which visual features to retain or disregard. On the other hand, directly aligning long captions with images can lead to the retention of entangled details, preventing the model from learning disentangled, atomic concepts -- ultimately limiting its generalization on certain downstream tasks involving short prompts. In this paper, we establish theoretical conditions that enable flexible alignment between textual and visual representations across varying levels of granularity. Specifically, our framework ensures that a model can not only \emph{preserve} cross-modal semantic information in its entirety but also \emph{disentangle} visual representations to capture fine-grained textual concepts. Building on this foundation, we introduce \ours, a novel approach that identifies and aligns the most relevant visual and textual representations in a modular manner. Superior performance across various tasks demonstrates its capability to handle information misalignment and supports our identification theory. The code is available at https://github.com/Mid-Push/SmartCLIP.
Abstract（参考訳）: Contrastive Language-Image Pre-Training (CLIP)~\citep{radford2021learning} は、コンピュータビジョンとマルチモーダルラーニングにおいて重要なモデルとして登場し、コントラッシブラーニングを通して視覚的およびテキスト的表現を整合させることで、最先端のパフォーマンスを達成する。しかし、CLIPは多くの画像テキストデータセットの潜在的な情報ミスアライメントに悩まされており、絡み合った表現に悩まされている。一方、MSCOCOのようなデータセットにおける単一の画像の短いキャプションは、画像内の不整合領域を記述し、どの視覚的特徴を保持するか、無視するかをモデルに残している。一方、長いキャプションを画像と直列に合わせることで、絡み合った詳細が保持され、モデルが歪んだ原子概念を学習することを防ぎ、最終的には短いプロンプトを含む特定の下流タスクへの一般化を制限する。本稿では,テキスト表現と視覚表現のフレキシブルなアライメントを可能にする理論的条件を,粒度の異なるレベルにわたって確立する。特に,本フレームワークは, モデルが全体において, 横断的意味情報だけでなく, 微粒なテクスチャ概念を捉えるために, 視覚表現のemph{disentangle} も可能であることを保証している。この基盤の上に構築された \ours は,最も関連性の高い視覚的およびテキスト的表現をモジュール化された方法で識別・調整する,新しいアプローチである。様々なタスクにおける上位性能は、情報の不整合を扱う能力を示し、識別理論をサポートする。コードはhttps://github.com/Mid-Push/SmartCLIPで入手できる。

関連論文リスト

Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。 CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文参考訳（メタデータ） (2023-06-15T03:26:28Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。