論文の概要: MulCLIP: A Multi-level Alignment Framework for Enhancing Fine-grained Long-context CLIP
- arxiv url: http://arxiv.org/abs/2512.07128v1
- Date: Mon, 08 Dec 2025 03:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.694627
- Title: MulCLIP: A Multi-level Alignment Framework for Enhancing Fine-grained Long-context CLIP
- Title(参考訳): MulCLIP: きめ細かい長文CLIPを実現するための多レベルアライメントフレームワーク
- Authors: Chau Truong, Hieu Ta Quang, Dung D. Le,
- Abstract要約: MulCLIPは、画像コンポーネントで自然な長文構造をブリッジするエンドツーエンドフレームワークである。
画像と要約と長いキャプションの間には、グローバルなコントラストの一致が保たれている。
長いテキストシーケンスに対して位置埋め込みを拡張する。
- 参考スコア(独自算出の注目度): 4.6096940605642915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models like CLIP show impressive ability to align images and text, but their training on short, concise captions makes them struggle with lengthy, detailed descriptions. Recent advances mitigate this challenge by leveraging region-proposal information to map visual regions with corresponding sentences from lengthy captions, yet incurring notable deployment costs. We introduce MulCLIP, a novel end-to-end multi-level alignment framework that bridges natural long-text structures with image components. MulCLIP first preserves global contrastive alignment between images and both summary and long captions, while extending positional embeddings for longer text sequences. To further enhance fine-grained understanding, we propose two novel strategies: (1) a token reconstruction alignment over locally calibrated features to strengthen semantic connections between words and image patches, and (2) a subcaption-aggregated patch alignment that automatically extracts and aggregates context-rich patches for each subcaption. Experimental results across diverse benchmarks demonstrate our method consistently improves downstream performance, while ablation studies confirm its multi-scale alignment is the key factor driving better fine-grained capability than region-proposal-assisted approaches, making it particularly suitable for diverse real-world applications.
- Abstract(参考訳): CLIPのような視覚言語モデルは、画像とテキストを整列する素晴らしい能力を示しているが、短い簡潔なキャプションでのトレーニングは、長く詳細な説明に苦しむ。
近年の進歩は、地域プロポーザル情報を活用して、長いキャプションから対応する文で視覚領域を地図化することで、この課題を軽減するが、展開コストは顕著である。
MulCLIPは、画像コンポーネントで自然な長文構造をブリッジする、エンドツーエンドの多レベルアライメントフレームワークである。
MulCLIPはまず、画像と要約と長いキャプションの両方のグローバルなコントラストアライメントを保存し、長いテキストシーケンスに対して位置埋め込みを拡張する。
より詳細な理解を深めるために,(1) 単語と画像パッチのセマンティック接続を強化するための局所的校正特徴に対するトークン再構成アライメント,(2) サブキャプションごとにコンテキストリッチなパッチを自動的に抽出・集約するサブキャプション集約パッチアライメント,の2つの新しい戦略を提案する。
様々なベンチマークによる実験結果から,提案手法はダウンストリーム性能を継続的に向上することを示す一方で,マルチスケールアライメントが地域プロモーサル支援手法よりもきめ細かな処理能力を向上させる重要な要因であることを確認した。
関連論文リスト
- PixCLIP: Achieving Fine-grained Visual Language Understanding via Any-granularity Pixel-Text Alignment Learning [31.386303698437214]
本稿では,視覚的プロンプト入力と長文記述処理を同時に行うように設計された新しいフレームワークPixCLIPを提案する。
我々は,CLIP のオリジナルテキストエンコーダを LLM に置き換え,三分岐画素テキストアライメント学習フレームワークを提案する。
PixCLIPは、ピクセルレベルのインタラクションと長文テキスト処理のブレークスルーを示し、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-06T17:54:12Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs [0.351124620232225]
FineLIPは textbfFine の粒度のアライメントと textbfLonger のテキスト入力を組み込むことで、クロスモーダルなテキストイメージマッピングを強化する。
FineLIPはまず、より長いテキストを扱うために位置埋め込みを拡張し、続いてローカル画像とテキストトークンの動的集約を行う。
我々は、ゼロショット・クロスモーダル検索とテキスト・ツー・イメージ生成という2つのタスクにまたがって、長い詳細なキャプションを持つデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2025-04-02T17:19:59Z) - GOAL: Global-local Object Alignment Learning [7.9061560322289335]
CLIPのようなビジョン言語モデルは、画像とテキストを整列する素晴らしい機能を示している。
短いキャプションと簡潔なキャプションに焦点が当てられているため、長い詳細な文章の記述に苦しむことが多い。
本稿では,CLIPの長文処理能力を高める新しい微調整手法であるGOALを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:27:32Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。