Fugu-MT 論文翻訳(概要): Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP

論文の概要: Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP

arxiv url: http://arxiv.org/abs/2412.11375v1
Date: Mon, 16 Dec 2024 02:03:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.154241
Title: Text and Image Are Mutually Beneficial: Enhancing Training-Free Few-Shot Classification with CLIP
Title（参考訳）: テキストと画像は相互に有用である:CLIPによるトレーニングフリーなFew-Shot分類の強化
Authors: Yayuan Li, Jintao Guo, Lei Qi, Wenbin Li, Yinghuan Shi,
Abstract要約: 我々は、IGT(Image-Guided-Text)コンポーネントとTGI(Text-Guided-Image)コンポーネントを導入し、相互誘導機構を構築する。広範囲な実験により、TIMOは最先端(SOTA)トレーニングフリー法よりも著しく優れていた。提案する改良型TIMO-Sは,最高のトレーニング要求手法を約100倍の時間コストで0.33%以上越えることが可能である。
参考スコア（独自算出の注目度）: 22.33658954569737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive Language-Image Pretraining (CLIP) has been widely used in vision tasks. Notably, CLIP has demonstrated promising performance in few-shot learning (FSL). However, existing CLIP-based methods in training-free FSL (i.e., without the requirement of additional training) mainly learn different modalities independently, leading to two essential issues: 1) severe anomalous match in image modality; 2) varying quality of generated text prompts. To address these issues, we build a mutual guidance mechanism, that introduces an Image-Guided-Text (IGT) component to rectify varying quality of text prompts through image representations, and a Text-Guided-Image (TGI) component to mitigate the anomalous match of image modality through text representations. By integrating IGT and TGI, we adopt a perspective of Text-Image Mutual guidance Optimization, proposing TIMO. Extensive experiments show that TIMO significantly outperforms the state-of-the-art (SOTA) training-free method. Additionally, by exploring the extent of mutual guidance, we propose an enhanced variant, TIMO-S, which even surpasses the best training-required methods by 0.33% with approximately 100 times less time cost. Our code is available at https://github.com/lyymuwu/TIMO.
Abstract（参考訳）: Contrastive Language-Image Pretraining (CLIP) は視覚タスクで広く使われている。特にCLIPは、数ショット学習(FSL)で有望なパフォーマンスを示している。しかし、既存のCLIPベースのトレーニングフリーFSL(つまり、追加のトレーニングを必要としない)メソッドは、主に異なるモダリティを独立して学習し、2つの重要な問題に繋がる。 1) 画像のモダリティにおける重度の異常一致 2) 生成したテキストプロンプトの品質の変化。これらの課題に対処するために、画像表現によるテキストプロンプトの様々な品質を補正するIGT(Image-Guided-Text)コンポーネントと、テキスト表現による画像モダリティの異常マッチングを緩和するTGI(Text-Guided-Image)コンポーネントを導入する相互誘導機構を構築した。 IGTとTGIを統合することで、テキスト画像相互誘導最適化の視点を採用し、TIMOを提案する。広範囲な実験により、TIMOは最先端(SOTA)トレーニングフリー法よりも著しく優れていた。さらに, 相互指導の程度を探索することにより, 最高のトレーニング要求手法であるTIMO-Sを約100倍の時間コストで0.33%以上越える改良型TIMO-Sを提案する。私たちのコードはhttps://github.com/lyymuwu/TIMO.comで利用可能です。

関連論文リスト

TF-TI2I: Training-Free Text-and-Image-to-Image Generation via Multi-Modal Implicit-Context Learning in Text-to-Image Models [19.1659725630146]
トレーニングフリーのテキスト・イメージ・トゥ・イメージ(TF-TI2I)は、追加のトレーニングを必要とせずに最先端のT2Iモデルに適応する。提案手法は,様々なベンチマークにおいて堅牢な性能を示し,複雑な画像生成タスクの処理の有効性を確認した。
論文参考訳（メタデータ） (2025-03-19T15:03:19Z)
Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文参考訳（メタデータ） (2024-11-30T11:27:58Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文参考訳（メタデータ） (2023-03-30T17:37:14Z)
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文参考訳（メタデータ） (2023-03-30T06:02:40Z)
Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文参考訳（メタデータ） (2022-11-23T07:00:11Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。