論文の概要: A$_3$B$_2$: Adaptive Asymmetric Adapter for Alleviating Branch Bias in Vision-Language Image Classification with Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2605.13161v1
- Date: Wed, 13 May 2026 08:24:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.910152
- Title: A$_3$B$_2$: Adaptive Asymmetric Adapter for Alleviating Branch Bias in Vision-Language Image Classification with Few-Shot Learning
- Title(参考訳): A$_3$B$_2$:Few-Shot Learningを用いた視覚言語画像分類における分岐バイアス緩和のための適応型非対称適応器
- Authors: Yiyun Zhou, Zhonghua Jiang, Wenkang Han, Kunxi Li, Mingjing Xu, Chang Yao, Jingyuan Chen,
- Abstract要約: 本稿では,分岐バイアスを軽減できる適応型非対称適応器を提案する。
A$_3$B$は不確実性対応ダンピング(Uncertainty-Aware Adapter Dampening, UAAD)を導入している。
11データセットにわたる3つの複数ショットイメージ分類タスクの実験により、A$_3$B$は、競争力とアダプタベースのベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 24.50908296572901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient transfer learning methods for large-scale vision-language models ($e.g.$, CLIP) enable strong few-shot transfer, yet existing adaptation methods follow a fixed fine-tuning paradigm that implicitly assumes a uniform importance of the image and text branches, which has not been systematically studied in image classification. Through extensive analysis, we reveal a Branch Bias issue in vision-language image classification: adapting the image encoder does not always improve performance under out-of-distribution settings. Motivated by this observation, we propose A$_3$B$_2$, an Adaptive Asymmetric Adapter that alleviates Branch Bias in few-shot learning. A$_3$B$_2$ introduces Uncertainty-Aware Adapter Dampening (UAAD), which automatically suppresses image-branch adaptation when prediction uncertainty is high, enabling soft and data-driven control without manual intervention. Architecturally, A$_3$B$_2$ adopts a lightweight asymmetric design inspired by mixture-of-experts with Load Balancing Regularization. Extensive experiments on three few-shot image classification tasks across 11 datasets demonstrate that A$_3$B$_2$ consistently outperforms 11 competitive prompt- and adapter-based baselines.
- Abstract(参考訳): 大規模視覚言語モデル(例えば、CLIP)の効率的な転写学習手法は、強い数ショット転送を可能にするが、既存の適応法は、画像分類において体系的に研究されていない画像とテキストの枝の均一な重要性を暗黙的に仮定する固定された微調整パラダイムに従う。
画像エンコーダの適応は、アウト・オブ・ディストリビューション・セッティングにおける性能を常に改善するとは限らない。
そこで本研究では,A$_3$B$_2$という適応型非対称アダプタを提案する。
A$_3$B$_2$は、不確実性対応ダンピング(Uncertainty-Aware Adapter Dampening, UAAD)を導入し、予測の不確実性が高い場合に自動的にイメージブランチ適応を抑える。
アーキテクチャ上、A$_3$B$_2$は、ロードバランシング規則化とエキスパートの混合にインスパイアされた軽量な非対称設計を採用する。
A$_3$B$_2$は、競争力のあるプロンプトとアダプタベースのベースラインを一貫して上回っている。
関連論文リスト
- Uncertainty-Guided Selective Adaptation Enables Cross-Platform Predictive Fluorescence Microscopy [65.15943255667733]
自動深度選択機能付きサブネットワーク画像翻訳ADDA(SIT-ADDA-Auto)について紹介する。
より深い層を凍結しながら、最も初期の畳み込み層のみを適応させることで、信頼できる転送が得られることを示す。
この結果から,マイクロスコープにおけるラベルなし適応の設計規則とフィールド設定のレシピが提供され,コードが公開されている。
論文 参考訳(メタデータ) (2025-11-15T03:01:05Z) - Training-Free Synthetic Data Generation with Dual IP-Adapter Guidance [13.893061390641348]
DIPSYは、数ショットの例を使って合成画像を生成するトレーニング不要のアプローチである。
我々の手法は最先端または同等のパフォーマンスを達成する。
本研究は,クラス識別特徴の生成に肯定的指導を施した二重画像の活用の有効性を強調した。
論文 参考訳(メタデータ) (2025-09-26T17:57:32Z) - Fine-grained Image Retrieval via Dual-Vision Adaptation [38.41312409147845]
Fine-Grained Image Retrieval (FGIR)は、識別的視覚表現を学習し、類似した微細な特徴を持つ画像を検索する際の課題に直面している。
本稿では,FGIRのFGIRモデルに対するDual-Vision Adaptation (DVA)アプローチを提案する。
論文 参考訳(メタデータ) (2025-06-19T12:46:55Z) - CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Train/Test-Time Adaptation with Retrieval [129.8579208970529]
Train/Test-Time Adaptation with Retrieval(rm T3AR$)を紹介します。
$rm T3AR$は、洗練された擬似ラベルと自己教師付きコントラスト目的関数を使用して、所定のモデルを下流タスクに適合させる。
検索モジュールのおかげで、ユーザまたはサービスプロバイダは、下流タスクのモデル適応を改善することができる。
論文 参考訳(メタデータ) (2023-03-25T02:44:57Z) - Self-supervised Augmentation Consistency for Adapting Semantic
Segmentation [56.91850268635183]
本稿では,実用的かつ高精度な意味セグメンテーションのためのドメイン適応手法を提案する。
私たちは標準データ拡張技術である$-$フォトメトリックノイズ、フリップとスケーリング$-$を採用し、セマンティック予測の一貫性を保証する。
適応後の最先端セグメンテーション精度を大幅に改善し、バックボーンアーキテクチャと適応シナリオの異なる選択に整合性を持たせる。
論文 参考訳(メタデータ) (2021-04-30T21:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。