論文の概要: TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias
- arxiv url: http://arxiv.org/abs/2404.00384v1
- Date: Sat, 30 Mar 2024 14:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 03:59:36.742182
- Title: TTD: Text-Tag Self-Distillation Enhancing Image-Text Alignment in CLIP to Alleviate Single Tag Bias
- Title(参考訳): TTD:CLIPで画像テキストのアライメントを強化して単一タグバイアスを軽減する
- Authors: Sanghyun Jo, Soohyun Ryu, Sungyub Kim, Eunho Yang, Kyungsu Kim,
- Abstract要約: 現代のCLIPモデルにおける重要なバイアスを同定し,そのバイアスをテキスト化タグバイアスと表現する。
このバイアスは、他の関連するタグを無視しながら、特異タグに不均等な焦点として現れます。
テキストから画像関連タグを抽出する2段階のファインチューニング手法を提案する。
- 参考スコア(独自算出の注目度): 28.92687240462284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify a critical bias in contemporary CLIP-based models, which we denote as \textit{single tag bias}. This bias manifests as a disproportionate focus on a singular tag (word) while neglecting other pertinent tags, stemming from CLIP's text embeddings that prioritize one specific tag in image-text relationships. When deconstructing text into individual tags, only one tag tends to have high relevancy with CLIP's image embedding, leading to an imbalanced tag relevancy. This results in an uneven alignment among multiple tags present in the text. To tackle this challenge, we introduce a novel two-step fine-tuning approach. First, our method leverages the similarity between tags and their nearest pixels for scoring, enabling the extraction of image-relevant tags from the text. Second, we present a self-distillation strategy aimed at aligning the combined masks from extracted tags with the text-derived mask. This approach mitigates the single tag bias, thereby significantly improving the alignment of CLIP's model without necessitating additional data or supervision. Our technique demonstrates model-agnostic improvements in multi-tag classification and segmentation tasks, surpassing competing methods that rely on external resources. Code is available at https://github.com/shjo-april/TTD.
- Abstract(参考訳): 現代のCLIPモデルでは,「textit{single tag bias}」という重要なバイアスが認められる。
このバイアスは、画像とテキストの関係において1つの特定のタグを優先するCLIPのテキスト埋め込みから生まれた、他の関連するタグを無視しながら、特異タグ(ワード)に不均等な焦点として現れている。
テキストを個々のタグに分解する場合、CLIPのイメージ埋め込みと高い関連性を持つのは1つのタグのみである。
これにより、テキストに存在する複数のタグの間に不均一なアライメントが生じる。
この課題に対処するために、我々は新しい2段階の微調整アプローチを導入する。
まず,タグと最寄りの画素との類似性を利用して,テキストから画像関連タグを抽出する手法を提案する。
第2に,抽出したタグから合成マスクをテキスト由来のマスクに整列させることを目的とした自己蒸留方式を提案する。
このアプローチは、単一のタグバイアスを軽減し、追加のデータや監視を必要とせずに、CLIPモデルのアライメントを大幅に改善する。
本手法は,マルチタグ分類とセグメンテーションタスクにおけるモデルに依存しない改善を実証し,外部リソースに依存する競合手法を克服する。
コードはhttps://github.com/shjo-april/TTD.comで入手できる。
関連論文リスト
- RCA-NOC: Relative Contrastive Alignment for Novel Object Captioning [18.13275250206568]
本稿では,視覚的・意味的なアライメントを学習するために,相対的コントラスト学習を用いた新しいオブジェクトキャプションを提案する。
我々は2つのデータセットに対するアプローチを評価し、提案したRCA-NOCアプローチが最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2023-12-11T11:06:32Z) - PatchCT: Aligning Patch Set and Label Set with Conditional Transport for
Multi-Label Image Classification [48.929583521641526]
マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。
本稿では,このギャップを埋める条件輸送理論を紹介する。
複数ラベルの分類をCT問題として定式化することで,画像とラベルの相互作用を効率的に活用できることがわかった。
論文 参考訳(メタデータ) (2023-07-18T08:37:37Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - Enhancing Label Correlation Feedback in Multi-Label Text Classification
via Multi-Task Learning [6.1538971100140145]
ラベル相関フィードバックを高めるために,マルチタスク学習を用いた新しい手法を提案する。
本稿では,ラベル相関学習を強化するための2つの補助ラベル共起予測タスクを提案する。
論文 参考訳(メタデータ) (2021-06-06T12:26:14Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Few-shot Slot Tagging with Collapsed Dependency Transfer and
Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。
実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-10T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。