Fugu-MT 論文翻訳(概要): Bridging the Gap: Neural Collapse Inspired Prompt Tuning for Generalization under Class Imbalance

論文の概要: Bridging the Gap: Neural Collapse Inspired Prompt Tuning for Generalization under Class Imbalance

arxiv url: http://arxiv.org/abs/2306.15955v2
Date: Thu, 29 Jun 2023 07:02:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 10:11:35.225334
Title: Bridging the Gap: Neural Collapse Inspired Prompt Tuning for Generalization under Class Imbalance
Title（参考訳）: ギャップのブリッジ: クラス不均衡下での一般化のための神経崩壊によるプロンプトチューニング
Authors: Didi Zhu, Yinchuan Li, Min Zhang, Junkun Yuan, Jiashuo Liu, Zexi Li, Kun Kuang, Chao Wu
Abstract要約: 大規模視覚言語(V-L)モデルの一般化性能に及ぼすクラス不均衡の影響について検討する。この問題に対処するため,ニューラル・コラプスに基づく Prompt Tuning (NPT) を提案する。 NPTは、クラス不均衡条件下でのV-Lモデルのロバスト性を高めるために、幾何脱バイアスと多モード同型という2つの正規化項を取り入れている。
参考スコア（独自算出の注目度）: 25.872303054359875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale vision-language (V-L) models have demonstrated remarkable generalization capabilities for downstream tasks through prompt tuning. However, their performance suffers significantly in the presence of class imbalance, a common issue in real-world scenarios. In this paper, we investigate the effects of class imbalance on the generalization performance of V-L models and extend Neural Collapse phenomenon to these models, revealing the geometric reasons behind the impact of class imbalance on their generalization ability. To address this problem, we propose Neural Collapse based Prompt Tuning (NPT), a novel method that optimizes prompts so that both text and image features satisfy the same simplex ETF structure. NPT incorporates two regularization terms, geometric de-biasing and multi-modal isomorphism, to enhance the robustness of V-L models under class imbalance conditions while maintaining their generalization capabilities. Our comprehensive experiments show that NPT outperforms existing prompt learning techniques across 11 diverse image recognition datasets, achieving an absolute average gain of 2.63\% for novel classes and 2.47\% for harmonic mean when facing imbalanced data.
Abstract（参考訳）: 大規模視覚言語モデル (V-L) は, 高速チューニングによる下流タスクの顕著な一般化機能を示した。しかし、実際のシナリオでは一般的な問題であるクラス不均衡の存在下では、パフォーマンスが著しく低下する。本稿では,クラス不均衡がV-Lモデルの一般化性能に及ぼす影響とニューラル崩壊現象をこれらのモデルに拡張し,クラス不均衡が一般化能力に与える影響の幾何学的理由を明らかにする。この問題を解決するために,ニューラル・コラプスに基づくプロンプト・チューニング(NPT)を提案し,テキストと画像の特徴が同じ単純なETF構造を満たすようにプロンプトを最適化する。 NPTは2つの正規化項、幾何脱バイアスとマルチモーダル同型を導入し、一般化能力を保ちながらクラス不均衡条件下でのV-Lモデルのロバスト性を高める。総合実験により,nptは11種類の画像認識データセットで既存のプロンプト学習技術を上回っており,新しいクラスでは絶対平均値2.63\%,不均衡データでは調和平均値2.47\%を達成した。

関連論文リスト

Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文参考訳（メタデータ） (2024-12-19T08:51:01Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文参考訳（メタデータ） (2024-06-09T05:57:40Z)
DRPT: Disentangled and Recurrent Prompt Tuning for Compositional Zero-Shot Learning [15.580557941267095]
状態とオブジェクトのプリミティブは、プロンプトに埋め込まれ、目に見えない構成にチューニングされた語彙の学習可能なトークンと見なされる。プロンプトを段階的に更新できるプログレッシブな微調整手順を開発した。合成ゼロショット学習における絡み合いの定量化と解析を行う。
論文参考訳（メタデータ） (2023-05-02T07:42:47Z)
Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文参考訳（メタデータ） (2022-10-13T17:50:24Z)
Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文参考訳（メタデータ） (2022-08-17T15:06:36Z)
Prompt Tuning for Generative Multimodal Pretrained Models [75.44457974275154]
我々は、理解タスクと生成タスクの両方に適応した統合シーケンス・ツー・シーケンス事前学習モデルに、即時チューニングを実装した。実験結果から,軽量なプロンプトチューニングはファインタニングで同等の性能を発揮することが示された。微調整モデルと比較して、プロンプト調整モデルでは敵攻撃に対する堅牢性が改善されている。
論文参考訳（メタデータ） (2022-08-04T08:56:38Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。