Fugu-MT 論文翻訳(概要): Noise-Tolerant Unsupervised Adapter for Vision-Language Models

論文の概要: Noise-Tolerant Unsupervised Adapter for Vision-Language Models

arxiv url: http://arxiv.org/abs/2309.14928v1
Date: Tue, 26 Sep 2023 13:35:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 13:32:25.307359
Title: Noise-Tolerant Unsupervised Adapter for Vision-Language Models
Title（参考訳）: 視覚言語モデルのためのノイズ耐性非教師なしアダプタ
Authors: Eman Ali, Dayan Guan, Shijian Lu, Abdulmotaleb Elsaddik
Abstract要約: NtUAは耐雑音性のない教師なし適応器で、数発の未ラベルのターゲットサンプルで優れたターゲットモデルを学習することができる。 NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 67.72101536572232
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large-scale vision-language models have achieved very impressive performance in various zero-shot image classification tasks. While prior studies have demonstrated significant improvements by introducing few-shot labelled target samples, they still require labelling of target samples, which greatly degrades their scalability while handling various visual recognition tasks. We design NtUA, a Noise-tolerant Unsupervised Adapter that allows learning superior target models with few-shot unlabelled target samples. NtUA works as a key-value cache that formulates visual features and predicted pseudo-labels of the few-shot unlabelled target samples as key-value pairs. It consists of two complementary designs. The first is adaptive cache formation that combats pseudo-label noises by weighting the key-value pairs according to their prediction confidence. The second is pseudo-label rectification, which corrects both pair values (i.e., pseudo-labels) and cache weights by leveraging knowledge distillation from large-scale vision language models. Extensive experiments show that NtUA achieves superior performance consistently across multiple widely adopted benchmarks.
Abstract（参考訳）: 大規模視覚言語モデルの最近の進歩は、様々なゼロショット画像分類タスクにおいて非常に印象的な性能を達成している。以前の研究では、少数のラベル付きターゲットサンプルの導入による大幅な改善が示されているが、ターゲットサンプルのラベル付けが必要であり、様々な視覚認識タスクを処理しながらスケーラビリティを大幅に低下させる。 ntuaはノイズに耐性のある非教師なしアダプターで、数発の未ラベルのターゲットサンプルで優れたターゲットモデルを学習できる。 NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、数発の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。相補的なデザインが2つある。 1つ目は、擬似ラベルノイズに対処する適応キャッシュ形成であり、予測信頼度に応じてキー値対を重み付けする。 2つ目は擬似ラベル補正であり、大規模な視覚言語モデルからの知識蒸留を利用してペア値(擬似ラベル)とキャッシュ重みを補正する。大規模な実験により、NtUAは複数の広く採用されているベンチマークにおいて、一貫して優れた性能を発揮することが示された。

関連論文リスト

DCAC: Dynamic Class-Aware Cache Creates Stronger Out-of-Distribution Detectors [43.8920190045364]
深いニューラルネットワークでは、アウト・オブ・ディストリビューション(OOD)検出が依然として根本的な課題である。我々は,各IDクラスごとに個別のキャッシュを保持して高エントロピーサンプルを収集する,トレーニングフリーでテストタイムのキャリブレーションモジュールであるDCAC(Dynamic Class-Aware Cache)を提案する。
論文参考訳（メタデータ） (2026-01-18T16:16:31Z)
Sharpness-aware Dynamic Anchor Selection for Generalized Category Discovery [61.694524826522205]
既知のクラスのラベル付きデータを考えると、GCDは既知のクラスと未知のクラスの両方を含むラベルなしデータをクラスタ化することを目的としている。大規模な事前学習モデルでは、特定の視覚的パターンが好まれ、ラベルのないデータに対して刺激的な相関を符号化する。 LSP(Los Sharpness Penalty)とDAS(Dynamic Anchor Selection)の2つのモジュールを含む新しい手法を提案する。
論文参考訳（メタデータ） (2025-12-15T02:24:06Z)
Vision Large Language Models Are Good Noise Handlers in Engagement Analysis [54.397912827957164]
本稿では,VLM(Vision Large Language Models)を利用したアノテーションの洗練とトレーニングプロセスの指導を行うフレームワークを提案する。本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。改良された高信頼性サブセットで訓練された古典型コンピュータビジョンモデルは,カリキュラム戦略により強化され,改善されたことを示す。
論文参考訳（メタデータ） (2025-11-18T18:50:26Z)
No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-23T12:54:52Z)
Enhancing Fine-Grained Vision-Language Pretraining with Negative Augmented Samples [12.407654428921049]
既存のビジョンランゲージ事前学習法は、様々な視覚言語タスクにおいて顕著に改善されている。しかし、多くのニュアンスな視覚言語アプリケーションにとって重要な、きめ細かい理解能力は依然として限られている。我々は,NASを革新的に組み込んだ視覚言語事前学習モデルであるNegative Augmented Samples(NAS)を導入する。
論文参考訳（メタデータ） (2024-12-13T10:39:31Z)
LPLgrad: Optimizing Active Learning Through Gradient Norm Sample Selection and Auxiliary Model Training [2.762397703396293]
LPLgrad(Loss Prediction Loss with Gradient Norm)は、モデルの不確実性を効果的に定量化し、画像分類タスクの精度を向上させる。 LPLgradは2つの異なるフェーズで動作する: (i) Em Training Phaseは、メインモデルと補助モデルとを併用して入力特徴の損失を予測することを目的としている。この二重モデルアプローチは、複雑な入力特徴を抽出し、データから本質的なパターンを効果的に学習する能力を高める。
論文参考訳（メタデータ） (2024-11-20T18:12:59Z)
Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文参考訳（メタデータ） (2024-05-06T02:02:57Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Efficient Test-Time Adaptation of Vision-Language Models [58.3646257833533]
事前学習された視覚言語モデルによるテスト時間適応は、テスト時間中に分散シフトに取り組むことに注目が集まっている。我々は、視覚言語モデルによる効率的なテスト時間適応を可能にするトレーニングフリーな動的アダプタであるTDAを設計する。
論文参考訳（メタデータ） (2024-03-27T06:37:51Z)
Augment and Criticize: Exploring Informative Samples for Semi-Supervised Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。 3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文参考訳（メタデータ） (2023-03-20T16:28:15Z)
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文参考訳（メタデータ） (2023-03-16T06:09:15Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
Explicitly Modeling the Discriminability for Instance-Aware Visual Object Tracking [13.311777431243296]
特徴表現の識別性を明らかにするための新しいインスタンス・アウェア・トラッカー (IAT) を提案する。提案するIATには,ビデオレベルとオブジェクトレベルを含む2つのバリエーションを実装している。どちらのバージョンも30FPSで動作しながら最先端のメソッドに対して主要な結果を得る。
論文参考訳（メタデータ） (2021-10-28T11:24:01Z)
One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文参考訳（メタデータ） (2020-05-08T01:59:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。