論文の概要: TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias
- arxiv url: http://arxiv.org/abs/2404.00384v2
- Date: Tue, 21 May 2024 02:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:12:24.569852
- Title: TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias
- Title(参考訳): TTD:CLIPで画像テキストのアライメントを強化して単一タグバイアスを軽減する
- Authors: Sanghyun Jo, Soohyun Ryu, Sungyub Kim, Eunho Yang, Kyungsu Kim,
- Abstract要約: 現代のCLIPモデルにおいて,単一タグバイアスを示す重要なバイアスを同定する。
本稿では,この課題に対処するため,新しい2段階の微調整手法であるText-Tag Self-Distillation(TTD)を提案する。
本手法は,マルチタグ分類とセグメンテーションタスクにおけるモデルに依存しない改善を実証し,外部リソースに依存する競合手法を克服する。
- 参考スコア(独自算出の注目度): 28.92687240462284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify a critical bias in contemporary CLIP-based models, which we denote as single tag bias. This bias manifests as a disproportionate focus on a singular tag (word) while neglecting other pertinent tags, stemming from CLIP's text embeddings that prioritize one specific tag in image-text relationships. When deconstructing text into individual tags, only one tag tends to have high relevancy with CLIP's image embedding, leading to biased tag relevancy. In this paper, we introduce a novel two-step fine-tuning approach, Text-Tag Self-Distillation (TTD), to address this challenge. TTD first extracts image-relevant tags from text based on their similarity to the nearest pixels then employs a self-distillation strategy to align combined masks with the text-derived mask. This approach ensures the unbiased image-text alignment of the CLIP-based models using only image-text pairs without necessitating additional supervision. Our technique demonstrates model-agnostic improvements in multi-tag classification and segmentation tasks, surpassing competing methods that rely on external resources. The code is available at https://github.com/shjo-april/TTD.
- Abstract(参考訳): 現代のCLIPモデルにおいて,単一タグバイアスを示す重要なバイアスを同定する。
このバイアスは、画像とテキストの関係において1つの特定のタグを優先するCLIPのテキスト埋め込みから生まれた、他の関連するタグを無視しながら、特異タグ(ワード)に不均等な焦点として現れている。
テキストを個々のタグに分解する場合、CLIPのイメージ埋め込みと高い関連性を持つのは1つのタグのみである。
本稿では,この課題に対処するため,新しい2段階の微調整手法であるText-Tag Self-Distillation(TTD)を提案する。
TTDはまず、最も近いピクセルとの類似性に基づいてテキストから画像関連タグを抽出する。
このアプローチは、追加の監視を必要とせずに、イメージテキストペアのみを使用して、CLIPベースのモデルのバイアスのないイメージテキストアライメントを保証する。
本手法は,マルチタグ分類とセグメンテーションタスクにおけるモデルに依存しない改善を実証し,外部リソースに依存する競合手法を克服する。
コードはhttps://github.com/shjo-april/TTD.comで公開されている。
関連論文リスト
- Modeling Text-Label Alignment for Hierarchical Text Classification [12.579592946863762]
階層的テキスト分類(HTC)は、構造化されたラベル階層に基づいてテキストデータを分類することを目的としており、その結果、予測されたラベルがサブ階層木を形成する。
サンプルごとにサブ階層が変化すると、テキストラベルアライメントの動的な性質が既存のメソッドに課題をもたらします。
テキストとラベルのアライメントをモデル化するためのテキストラベルアライメント(TLA)ロスを提案する。
論文 参考訳(メタデータ) (2024-09-01T17:48:29Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - PatchCT: Aligning Patch Set and Label Set with Conditional Transport for
Multi-Label Image Classification [48.929583521641526]
マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。
本稿では,このギャップを埋める条件輸送理論を紹介する。
複数ラベルの分類をCT問題として定式化することで,画像とラベルの相互作用を効率的に活用できることがわかった。
論文 参考訳(メタデータ) (2023-07-18T08:37:37Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Tracing Text Provenance via Context-Aware Lexical Substitution [81.49359106648735]
文脈を考慮した語彙置換に基づく自然言語透かし方式を提案する。
主観的および主観的尺度の両面において,我々の透かし方式は原文の意味的整合性を十分に維持することができる。
論文 参考訳(メタデータ) (2021-12-15T04:27:33Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。