論文の概要: InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer
- arxiv url: http://arxiv.org/abs/2511.15967v1
- Date: Thu, 20 Nov 2025 01:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.418767
- Title: InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer
- Title(参考訳): InfoCLIP:情報理論アライメント伝達による視覚領域事前学習とオープン語彙セマンティックセマンティックセグメンテーション
- Authors: Muyao Yuan, Yuanhong Zhang, Weizhan Zhang, Lan Ma, Yuan Gao, Jiangyong Ying, Yudeng Xin,
- Abstract要約: 本稿では,事前学習したCLIPからセグメンテーションタスクへアライメント知識を伝達するInfoCLIPを提案する。
まず、事前訓練されたCLIPからピクセル・テキスト・モダリティ・アライメントを圧縮し、その粗い局所的意味表現から生じるノイズを低減する。
第2に,プレトレーニング済みCLIPのアライメント知識と微調整モデルとの相互情報を最大化し,セグメンテーションタスクに適したコンパクトな局所意味関係を伝達する。
- 参考スコア(独自算出の注目度): 13.655842827096611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the strong generalization ability of CLIP has facilitated open-vocabulary semantic segmentation, which labels pixels using arbitrary text. However, existing methods that fine-tune CLIP for segmentation on limited seen categories often lead to overfitting and degrade the pretrained vision-language alignment. To stabilize modality alignment during fine-tuning, we propose InfoCLIP, which leverages an information-theoretic perspective to transfer alignment knowledge from pretrained CLIP to the segmentation task. Specifically, this transfer is guided by two novel objectives grounded in mutual information. First, we compress the pixel-text modality alignment from pretrained CLIP to reduce noise arising from its coarse-grained local semantic representations learned under image-text supervision. Second, we maximize the mutual information between the alignment knowledge of pretrained CLIP and the fine-tuned model to transfer compact local semantic relations suited for the segmentation task. Extensive evaluations across various benchmarks validate the effectiveness of InfoCLIP in enhancing CLIP fine-tuning for open-vocabulary semantic segmentation, demonstrating its adaptability and superiority in asymmetric transfer.
- Abstract(参考訳): 近年、CLIPの強力な一般化能力により、任意のテキストを用いてピクセルをラベル付けするオープン語彙セマンティックセマンティックセマンティックセマンティクスが促進されている。
しかし、限定されたカテゴリのセグメンテーションのためにCLIPを微調整する既存の方法は、しばしば事前訓練された視覚言語アライメントを過度に適合させ、劣化させる。
微調整時のアライメントの安定化を図るため,情報理論の視点を利用して,事前学習したCLIPからセグメンテーションタスクへアライメント知識を伝達するInfoCLIPを提案する。
具体的には、この転送は、相互情報に基づく2つの新しい目的によって導かれる。
まず,事前訓練したCLIPから画素・テキスト・モダリティ・アライメントを圧縮し,その粗い粒度の局所的意味表現から発生するノイズを低減する。
第2に,プレトレーニング済みCLIPのアライメント知識と微調整モデルとの相互情報を最大化し,セグメンテーションタスクに適したコンパクトな局所意味関係を伝達する。
様々なベンチマークにおける広範囲な評価は、オープン語彙セマンティックセグメンテーションのためのCLIP微調整の強化におけるInfoCLIPの有効性を検証し、非対称移動における適応性と優越性を証明した。
関連論文リスト
- Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。
最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。
我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文 参考訳(メタデータ) (2025-03-26T02:00:49Z) - FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。
一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。
対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。
細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文 参考訳(メタデータ) (2025-01-01T15:47:04Z) - Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Context-self contrastive pretraining for crop type semantic segmentation [39.81074867563505]
提案したContext-Self Contrastive Loss (CSCL)は、セマンティックバウンダリをポップアップさせる埋め込み空間を学習する。
衛星画像時系列(SITS)からの作物型セマンティックセマンティックセグメンテーションでは,サテライト境界における性能が重要なボトルネックとなる。
より粒度の高い作物のクラスを得るための超解像における意味的セグメンテーションのプロセスを提案する。
論文 参考訳(メタデータ) (2021-04-09T11:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。