論文の概要: Boosting Vision-Language Models with Transduction
- arxiv url: http://arxiv.org/abs/2406.01837v1
- Date: Mon, 3 Jun 2024 23:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:32:51.371595
- Title: Boosting Vision-Language Models with Transduction
- Title(参考訳): トランスダクションによる視覚言語モデルの構築
- Authors: Maxime Zanella, Benoît Gérin, Ismail Ben Ayed,
- Abstract要約: 本稿では,視覚言語モデルのための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。
TransCLIPは、一般的なinductive zero- and few-shotモデルの上に、プラグイン・アンド・プレイモジュールとして適用することができる。
- 参考スコア(独自算出の注目度): 12.281505126587048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transduction is a powerful paradigm that leverages the structure of unlabeled data to boost predictive accuracy. We present TransCLIP, a novel and computationally efficient transductive approach designed for Vision-Language Models (VLMs). TransCLIP is applicable as a plug-and-play module on top of popular inductive zero- and few-shot models, consistently improving their performances. Our new objective function can be viewed as a regularized maximum-likelihood estimation, constrained by a KL divergence penalty that integrates the text-encoder knowledge and guides the transductive learning process. We further derive an iterative Block Majorize-Minimize (BMM) procedure for optimizing our objective, with guaranteed convergence and decoupled sample-assignment updates, yielding computationally efficient transduction for large-scale datasets. We report comprehensive evaluations, comparisons, and ablation studies that demonstrate: (i) Transduction can greatly enhance the generalization capabilities of inductive pretrained zero- and few-shot VLMs; (ii) TransCLIP substantially outperforms standard transductive few-shot learning methods relying solely on vision features, notably due to the KL-based language constraint.
- Abstract(参考訳): トランスダクションは、ラベルのないデータの構造を利用して予測精度を高める強力なパラダイムである。
本稿では,視覚言語モデル(VLM)のための新しい,計算効率の良いトランスダクティブアプローチであるTransCLIPを提案する。
TransCLIPは、一般的なインダクティブゼロおよび少数ショットモデルの上に、プラグイン・アンド・プレイモジュールとして適用でき、一貫してパフォーマンスを改善している。
我々の新たな目的関数は、テキストエンコーダの知識を統合し、トランスダクティブ学習プロセスを導くKL発散ペナルティによって制約された、正規化された最大類似度推定と見なすことができる。
さらに,BMM(Block Majorize-Minimize)手順の反復的導出を行い,コンバージェンスとデカップリングされたサンプルアサインメントの更新を保証し,大規模データセットに対する計算効率のよいトランスダクションを実現する。
以下に示すような総合的な評価、比較、アブレーション研究について報告する。
一 トランスダクションは、誘導事前訓練されたゼロ及び少数ショットVLMの一般化能力を大幅に向上させることができる。
(II)TransCLIPは,KL言語制約による視覚的特徴のみに頼って,標準的なトランスダクティブな少数ショット学習手法を著しく上回っている。
関連論文リスト
- Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization [78.61621802973262]
トレーニング済み重量を効率的に更新するための直交微調整法を提案する。
クロスレギュラー化戦略はゼロショットの一般化の観点から安定性を維持するためにも用いられる。
提案手法は,タスク固有の知識を表現するために,事前学習した重み空間を明示的に操るものであることを実証するために,広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Transductive Information Maximization For Few-Shot Learning [41.461586994394565]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
相互情報損失に対する新たな交互方向解法を提案する。
論文 参考訳(メタデータ) (2020-08-25T22:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。