Fugu-MT 論文翻訳(概要): KKLIP: Knowledge Distillation Exploiting K-means Clustering for Language-Image Pre-Training

論文の概要: KKLIP: Knowledge Distillation Exploiting K-means Clustering for Language-Image Pre-Training

arxiv url: http://arxiv.org/abs/2412.03513v1
Date: Wed, 04 Dec 2024 17:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.755696
Title: KKLIP: Knowledge Distillation Exploiting K-means Clustering for Language-Image Pre-Training
Title（参考訳）: KKLIP:言語画像事前学習のためのK平均クラスタリングのための知識蒸留爆発
Authors: Kuei-Chun Kao,
Abstract要約: 本稿では,CLIPの品質向上を目的とした新しいアプローチであるKKLIPを紹介する。本手法は, テキスト埋め込み蒸留, 概念学習, コントラスト学習の3つの目的からなる。実験の結果,KKLIPはテキストエンコーダと画像エンコーダの両方の品質を向上させることがわかった。
参考スコア（独自算出の注目度）: 0.8974383702601351
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recently, CLIP has emerged as a valuable model for aligning image and text information in multi-modal scenarios. However, researchers have observed limitations in the ability of CLIP's text and image encoders to extract detailed knowledge from caption-image pairs. In response, this paper introduces KKLIP, a novel approach designed to enhance the quality of CLIP by incorporating a new knowledge distillation (KD) method derived from Llama 2. Our method comprises three objectives: Text Embedding Distillation, Concept Learning, and Contrastive Learning. Firstly, Text Embedding Distillation involves training the KKLIP text encoder to emulate the teacher model, Llama 2. Secondly, Concept Learning assigns a soft concept label to each caption-image pair through offline k-means clustering of text information from Llama 2, allowing KKLIP to learn from these soft concept labels. Finally, Contrastive Learning harmonizes text and image embeddings. Our experimental results demonstrate that KKLIP enhances the quality of both text and image encoders.
Abstract（参考訳）: 近年、CLIPは、画像とテキスト情報をマルチモーダルシナリオで整列するための貴重なモデルとして登場した。しかし、研究者はCLIPのテキストと画像エンコーダがキャプションとイメージのペアから詳細な知識を抽出する能力に制限があることを発見した。そこで本研究では,Llama 2から派生した新しい知識蒸留(KD)手法を取り入れて,CLIPの品質向上を目指した新しい手法であるKKLIPを提案する。本手法は, テキスト埋め込み蒸留, 概念学習, コントラスト学習の3つの目的からなる。まず、テキスト埋め込み蒸留は、教師モデルであるLlama 2をエミュレートするためにKKLIPテキストエンコーダを訓練する。次に、概念学習は、Llama 2からのテキスト情報のオフラインk平均クラスタリングを通じて、各字幕イメージペアにソフトコンセプトラベルを割り当て、KKLIPがこれらのソフトコンセプトラベルから学習できるようにする。最後に、Contrastive Learningはテキストと画像の埋め込みを調和させる。実験の結果,KKLIPはテキストエンコーダと画像エンコーダの両方の品質を向上させることがわかった。

関連論文リスト

Text to Image for Multi-Label Image Recognition with Joint Prompt-Adapter Learning [69.33115351856785]
本稿では,PEFTのテキストキャプションのみを使用する場合のモダリティギャップ問題に対処するため,T2I-PALと呼ばれる新しい手法を提案する。 T2I-PALの中核となる設計は、事前訓練されたテキスト-画像生成モデルを利用して、テキストキャプションからフォトリアリスティックで多様な画像を生成することである。 MS-COCO、VOC2007、NAS-WIDEを含む複数のベンチマークに対する大規模な実験は、我々のT2I-PALが認識性能を平均3.47%向上させることができることを示している。
論文参考訳（メタデータ） (2025-06-12T11:09:49Z)
Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文参考訳（メタデータ） (2025-02-17T18:13:42Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
Interpreting and Analyzing CLIP's Zero-Shot Image Classification via Mutual Knowledge [20.09852220432504]
Contrastive Language-Image Pretraining (CLIP)は画像とテキストのクラス表現を共有埋め込み空間にマッピングすることでゼロショット画像分類を行う。この研究は、2つのモード間の相互知識のレンズから、画像分類のためのCLIPモデルを解釈するための新しいアプローチを提供する。
論文参考訳（メタデータ） (2024-10-16T20:18:21Z)
Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文参考訳（メタデータ） (2024-01-24T17:35:38Z)
Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文参考訳（メタデータ） (2023-08-22T15:03:16Z)
Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文参考訳（メタデータ） (2023-07-28T10:26:28Z)
Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-06-26T23:29:16Z)
S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。 S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。 S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文参考訳（メタデータ） (2023-05-23T14:18:11Z)
CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。 CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文参考訳（メタデータ） (2022-11-28T04:07:17Z)
ComCLIP: Training-Free Compositional Image and Text Matching [19.373706257771673]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。 ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文参考訳（メタデータ） (2022-11-25T01:37:48Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.59857372525664]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T23:35:18Z)
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。 MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文参考訳（メタデータ） (2022-08-21T08:37:50Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。