Fugu-MT 論文翻訳(概要): ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

論文の概要: ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements

arxiv url: http://arxiv.org/abs/2411.12044v1
Date: Mon, 18 Nov 2024 20:31:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.925874
Title: ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements
Title（参考訳）: ITACLIP: 画像,テキスト,アーキテクチャ拡張によるトレーニング不要なセマンティックセマンティックセグメンテーションの強化
Authors: M. Arda Aydın, Efe Mert Çırpar, Elvin Abdinli, Gozde Unal, Yusuf H. Sahin,
Abstract要約: ビジョン言語モデルの最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。これらの基礎モデル、特にCLIPは、オープン語彙コンピュータビジョンタスクの研究を加速してきた。本研究では,CLIPのセマンティックセグメンテーション性能を,新しいモジュールの導入と修正によって向上させる。 ITACLIPはセグメンテーションベンチマークの最先端手法よりも優れている。
参考スコア（独自算出の注目度）: 0.6990493129893112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in foundational Vision Language Models (VLMs) have reshaped the evaluation paradigm in computer vision tasks. These foundational models, especially CLIP, have accelerated research in open-vocabulary computer vision tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the initial results are promising, the dense prediction capabilities of VLMs still require further improvement. In this study, we enhance the semantic segmentation performance of CLIP by introducing new modules and modifications: 1) architectural changes in the last layer of ViT and the incorporation of attention maps from the middle layers with the last layer, 2) Image Engineering: applying data augmentations to enrich input image representations, and 3) using Large Language Models (LLMs) to generate definitions and synonyms for each class name to leverage CLIP's open-vocabulary capabilities. Our training-free method, ITACLIP, outperforms current state-of-the-art approaches on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.
Abstract（参考訳）: 基礎視覚言語モデル(VLM)の最近の進歩は、コンピュータビジョンタスクにおける評価パラダイムを再形成している。これらの基礎モデル、特にCLIPは、オープン語彙セマンティックセマンティックセグメンテーション(OVSS)を含むオープン語彙コンピュータビジョンタスクの研究を加速している。最初の結果は有望だが、VLMの高密度な予測能力にはさらなる改善が必要である。本研究では,新たなモジュールの導入と修正により,CLIPのセマンティックセグメンテーション性能を向上させる。 1)ViTの最終層における構造変化と,中間層から最終層への注目マップの導入。 2)画像工学:入力画像表現の充実にデータ拡張を適用すること、 3) 大きな言語モデル(LLM)を使用して、各クラス名の定義と同義語を生成し、CLIPのオープン語彙機能を活用する。 ITACLIPは,COCO-Stuff,COCO-Object,Pascal Context,Pascal VOCなどのセグメンテーションベンチマークにおいて,最先端の手法よりも優れている。私たちのコードはhttps://github.com/m-arda-aydn/ITACLIPで利用可能です。

関連論文リスト

Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文参考訳（メタデータ） (2025-03-26T02:00:49Z)
DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment [20.953645420787527]
計算コストのごく一部でCLIPライクなモデルをトレーニングする。ゼロショット分類とオープンボキャブラリセマンティックセマンティックセグメンテーションの最先端結果を得る。
論文参考訳（メタデータ） (2024-12-20T20:46:48Z)
LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-30T05:49:42Z)
CLIPer: Hierarchically Improving Spatial Representation of CLIP for Open-Vocabulary Semantic Segmentation [45.036137066263386]
Contrastive Language-Image Pre-Training (CLIP) は、様々な画像レベルのタスクに対して強力なゼロショット分類能力を示す。 CLIPの空間表現を階層的に改善する新しい階層型フレームワークCLIPerを提案する。提案するCLIPerは、7つのセグメンテーションデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-21T04:54:30Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。 CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文参考訳（メタデータ） (2023-10-08T04:00:20Z)
CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T06:23:59Z)
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文参考訳（メタデータ） (2022-11-27T12:38:52Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (2022-09-14T05:47:02Z)
A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2021-12-29T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。