論文の概要: Generate, Transduct, Adapt: Iterative Transduction with VLMs
- arxiv url: http://arxiv.org/abs/2501.06031v1
- Date: Fri, 10 Jan 2025 15:07:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:18.654891
- Title: Generate, Transduct, Adapt: Iterative Transduction with VLMs
- Title(参考訳): VLMを用いた反復的トランスダクション
- Authors: Oindrila Saha, Logan Lawrence, Grant Van Horn, Subhransu Maji,
- Abstract要約: GTA-CLIPは,言語と視覚空間における共同翻訳のための言語モデルからの監督を取り入れた新しい手法である。
アプローチは反復的であり, (i) 言語モデルをクエリすることで属性空間を漸進的に探索すること, (ii) 属性拡張型トランスダクティブ推論手順, (iii) データセット内の推論ラベルに基づいて言語と視覚エンコーダを微調整すること,の3段階からなる。
- 参考スコア(独自算出の注目度): 22.515832864485024
- License:
- Abstract: Transductive zero-shot learning with vision-language models leverages image-image similarities within the dataset to achieve better classification accuracy compared to the inductive setting. However, there is little work that explores the structure of the language space in this context. We propose GTA-CLIP, a novel technique that incorporates supervision from language models for joint transduction in language and vision spaces. Our approach is iterative and consists of three steps: (i) incrementally exploring the attribute space by querying language models, (ii) an attribute-augmented transductive inference procedure, and (iii) fine-tuning the language and vision encoders based on inferred labels within the dataset. Through experiments with CLIP encoders, we demonstrate that GTA-CLIP, yields an average performance improvement of 8.6% and 3.7% across 12 datasets and 3 encoders, over CLIP and transductive CLIP respectively in the zero-shot setting. We also observe similar improvements in a few-shot setting. We present ablation studies that demonstrate the value of each step and visualize how the vision and language spaces evolve over iterations driven by the transductive learning.
- Abstract(参考訳): 視覚言語モデルによるトランスダクティブゼロショット学習は、データセット内のイメージイメージの類似性を利用して、インダクティブ設定よりも優れた分類精度を実現する。
しかし、この文脈で言語空間の構造を探求する作業はほとんどない。
GTA-CLIPは,言語と視覚空間における共同翻訳のための言語モデルからの監督を取り入れた新しい手法である。
私たちのアプローチは反復的で、3つのステップから構成されています。
(i)言語モデルをクエリすることで属性空間を漸進的に探索する。
(二)属性拡張トランスダクティブ推論方法、及び
3)データセット内の推論ラベルに基づいて言語と視覚エンコーダを微調整する。
CLIPエンコーダを用いた実験により、GTA-CLIPは、ゼロショット設定でそれぞれCLIPとトランスダクティブCLIPを使用して、12データセットと3エンコーダの平均パフォーマンスが8.6%と3.7%向上することを示した。
また、いくつかの設定で同様の改善も観察します。
本稿では、各ステップの価値を実証し、トランスダクティブ学習によって駆動される反復を通して、視覚と言語空間がどのように進化するかを可視化するアブレーション研究を紹介する。
関連論文リスト
- DiffCLIP: Few-shot Language-driven Multimodal Classifier [19.145645804307566]
DiffCLIPはContrastive Language-Image Pretrainingを拡張する新しいフレームワークである。
高次元マルチモーダルリモートセンシング画像の正確な分類のための包括的言語駆動意味情報を提供する。
DiffCLIPはCLIPと比較して3つのリモートセンシングデータセットで10.65%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-12-10T02:21:39Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。