Fugu-MT 論文翻訳(概要): Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation

論文の概要: Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation

arxiv url: http://arxiv.org/abs/2411.17002v1
Date: Tue, 26 Nov 2024 00:15:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:51.021783
Title: Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation
Title（参考訳）: CLIPテスト時間適応におけるコード生成のための個別テキスト埋め込みの活用
Authors: Shambhavi Mishra, Julio Silva-Rodrıguez, Ismail Ben Ayed, Marco Pedersoli, Jose Dolz,
Abstract要約: テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
参考スコア（独自算出の注目度）: 21.20806568508201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language foundation models, such as CLIP, have shown unprecedented zero-shot performance across a wide range of tasks. Nevertheless, these models may be unreliable under distributional shifts, as their performance is significantly degraded. In this work, we explore how to efficiently leverage class text information to mitigate these distribution drifts encountered by large pre-trained vision-language models (VLMs) during test-time inference. In particular, we propose to generate pseudo-labels for the test-time samples by exploiting generic class text embeddings as fixed centroids of a label assignment problem, which is efficiently solved with Optimal Transport. Furthermore, the proposed adaptation method (CLIP-OT) integrates a multiple template knowledge distillation approach, which replicates multi-view contrastive learning strategies in unsupervised representation learning but without incurring additional computational complexity. Extensive experiments on multiple popular test-time adaptation benchmarks presenting diverse complexity empirically show the superiority of CLIP-OT, achieving performance gains of up to 7% over recent state-of-the-art methods, yet being computationally and memory efficient.
Abstract（参考訳）: CLIPのようなビジョン言語基盤モデルは、幅広いタスクで前例のないゼロショットのパフォーマンスを示している。それにもかかわらず、これらのモデルは、その性能が著しく劣化しているため、分散シフトの下で信頼性が低い可能性がある。本研究では,テスト時推論において,大規模な事前学習型視覚言語モデル(VLM)が直面する分散ドリフトを軽減するために,クラステキスト情報を効率的に活用する方法を検討する。特に,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テストタイムサンプルの擬似ラベルを生成することを提案する。さらに,CLIP-OT (Adapted Method) は,教師なし表現学習における多視点コントラスト学習戦略を再現するマルチテンプレート知識蒸留手法を統合する。多様な複雑性を示す複数の一般的なテスト時間適応ベンチマークに関する大規模な実験は、CLIP-OTの優位性を実証的に示し、最近の最先端の手法に比べて最大7%の性能向上を達成したが、計算的かつメモリ効率は良い。

関連論文リスト

Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。 CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文参考訳（メタデータ） (2025-11-25T18:57:28Z)
Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-08-01T11:55:12Z)
Salvaging the Overlooked: Leveraging Class-Aware Contrastive Learning for Multi-Class Anomaly Detection [18.797864512898787]
異常検出では、初期のアプローチは個々のクラスの別々のモデルを訓練し、高いパフォーマンスを得るが、スケーラビリティとリソース管理の課題を提起する。本研究は, 階層間混乱を解消する手法として, 再構築手法で観測されたこの性能について検討する。この混乱は、マルチクラスのシナリオで訓練されたモデルが、あるクラスのサンプルを別のクラスとして誤って再構成すると、再構成エラーが悪化する。原対象のカテゴリ情報(例えばカーペットや木)を明示的に活用することにより、局所CLを導入し、マルチスケールの高密度特徴を洗練させ、グローバルCLを導入し、通常のパターンのよりコンパクトな特徴表現を得ることにより、モデルをマルチクラスに効果的に適応させる。
論文参考訳（メタデータ） (2024-12-06T04:31:09Z)
Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文参考訳（メタデータ） (2024-11-23T02:34:33Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。 BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文参考訳（メタデータ） (2024-06-17T08:16:24Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。 InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文参考訳（メタデータ） (2024-03-10T08:15:51Z)
Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-08-24T16:47:17Z)
Active Learning Principles for In-Context Learning with Large Language Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。 ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文参考訳（メタデータ） (2023-05-23T17:16:04Z)
Learning New Tasks from a Few Examples with Soft-Label Prototypes [18.363177410917597]
ソフトラベルのプロトタイプ(SLP)に基づく新しい数ショット学習手法を提案する。これまでにないNLPタスク(4,8,16)の学習に重点を置いている。このデータ・リーン・セッティングにおけるテスト作業の大部分において,本手法が優れた性能を発揮することを実験的に実証した。
論文参考訳（メタデータ） (2022-10-31T16:06:48Z)
Transductive Few-Shot Learning: Clustering is All You Need? [31.21306826132773]
そこで本研究では,プロトタイプをベースとした超越的数ショット学習の汎用的定式化について検討する。提案手法は, 精度と最適化の観点から, 大きな問題にスケールアップしながら, 競争性能を向上する。驚いたことに、私たちの一般的なモデルは、最先端の学習と比較して、すでに競争力のあるパフォーマンスを実現しています。
論文参考訳（メタデータ） (2021-06-16T16:14:01Z)
Contrastive Learning with Adversarial Examples [79.39156814887133]
コントラスト学習(Contrastive Learning, CL)は、視覚表現の自己教師型学習(SSL)において一般的な手法である。本稿では,コンストラクティブ・ラーニングのための新しい逆例群を紹介し,これらの例を用いてCLAEと表記されるSSLの新しい逆トレーニングアルゴリズムを定義する。
論文参考訳（メタデータ） (2020-10-22T20:45:10Z)
Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。 PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。 PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文参考訳（メタデータ） (2020-05-11T09:53:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。