論文の概要: TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias
- arxiv url: http://arxiv.org/abs/2404.00384v1
- Date: Sat, 30 Mar 2024 14:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:59:36.742182
- Title: TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias
- Title(参考訳): TTD:CLIPで画像テキストのアライメントを強化して単一タグバイアスを軽減する
- Authors: Sanghyun Jo, Soohyun Ryu, Sungyub Kim, Eunho Yang, Kyungsu Kim,
- Abstract要約: 現代のCLIPモデルにおける重要なバイアスを同定し,そのバイアスをテキスト化タグバイアスと表現する。
このバイアスは、他の関連するタグを無視しながら、特異タグに不均等な焦点として現れます。
テキストから画像関連タグを抽出する2段階のファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 28.92687240462284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify a critical bias in contemporary CLIP-based models, which we denote as \textit{single tag bias}. This bias manifests as a disproportionate focus on a singular tag (word) while neglecting other pertinent tags, stemming from CLIP's text embeddings that prioritize one specific tag in image-text relationships. When deconstructing text into individual tags, only one tag tends to have high relevancy with CLIP's image embedding, leading to an imbalanced tag relevancy. This results in an uneven alignment among multiple tags present in the text. To tackle this challenge, we introduce a novel two-step fine-tuning approach. First, our method leverages the similarity between tags and their nearest pixels for scoring, enabling the extraction of image-relevant tags from the text. Second, we present a self-distillation strategy aimed at aligning the combined masks from extracted tags with the text-derived mask. This approach mitigates the single tag bias, thereby significantly improving the alignment of CLIP's model without necessitating additional data or supervision. Our technique demonstrates model-agnostic improvements in multi-tag classification and segmentation tasks, surpassing competing methods that rely on external resources. Code is available at https://github.com/shjo-april/TTD.
- Abstract(参考訳): 現代のCLIPモデルでは,「textit{single tag bias}」という重要なバイアスが認められる。
このバイアスは、画像とテキストの関係において1つの特定のタグを優先するCLIPのテキスト埋め込みから生まれた、他の関連するタグを無視しながら、特異タグ(ワード)に不均等な焦点として現れている。
テキストを個々のタグに分解する場合、CLIPのイメージ埋め込みと高い関連性を持つのは1つのタグのみである。
これにより、テキストに存在する複数のタグの間に不均一なアライメントが生じる。
この課題に対処するために、我々は新しい2段階の微調整アプローチを導入する。
まず,タグと最寄りの画素との類似性を利用して,テキストから画像関連タグを抽出する手法を提案する。
第2に,抽出したタグから合成マスクをテキスト由来のマスクに整列させることを目的とした自己蒸留方式を提案する。
このアプローチは、単一のタグバイアスを軽減し、追加のデータや監視を必要とせずに、CLIPモデルのアライメントを大幅に改善する。
本手法は,マルチタグ分類とセグメンテーションタスクにおけるモデルに依存しない改善を実証し,外部リソースに依存する競合手法を克服する。
コードはhttps://github.com/shjo-april/TTD.comで入手できる。
関連論文リスト
- Knowing Where to Focus: Attention-Guided Alignment for Text-based Person Search [64.15205542003056]
本稿では,AGM(Atention-Guided Mask)モデリングとTEM(Text Enrichment Module)という,2つの革新的なコンポーネントを備えたAGA(Atention-Guided Alignment)フレームワークを紹介する。
AGA は CUHK-PEDES と ICFG-PEDES と RSTP でそれぞれ78.36%、67.31%、67.4% に達した。
論文 参考訳(メタデータ) (2024-12-19T17:51:49Z) - Modeling Text-Label Alignment for Hierarchical Text Classification [12.579592946863762]
階層的テキスト分類(HTC)は、構造化されたラベル階層に基づいてテキストデータを分類することを目的としており、その結果、予測されたラベルがサブ階層木を形成する。
サンプルごとにサブ階層が変化すると、テキストラベルアライメントの動的な性質が既存のメソッドに課題をもたらします。
テキストとラベルのアライメントをモデル化するためのテキストラベルアライメント(TLA)ロスを提案する。
論文 参考訳(メタデータ) (2024-09-01T17:48:29Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - PatchCT: Aligning Patch Set and Label Set with Conditional Transport for
Multi-Label Image Classification [48.929583521641526]
マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。
本稿では,このギャップを埋める条件輸送理論を紹介する。
複数ラベルの分類をCT問題として定式化することで,画像とラベルの相互作用を効率的に活用できることがわかった。
論文 参考訳(メタデータ) (2023-07-18T08:37:37Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。