論文の概要: Raw Data Matters: Enhancing Prompt Tuning by Internal Augmentation on Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.02671v1
- Date: Mon, 04 Aug 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.469522
- Title: Raw Data Matters: Enhancing Prompt Tuning by Internal Augmentation on Vision-Language Models
- Title(参考訳): 生データ事項:ビジョンランゲージモデルの内部拡張によるプロンプトチューニングの強化
- Authors: Haoyang Li, Liang Wang, Chao Wang, Siyu Zhou, Jing Jiang, Yan Peng, Guodong Long,
- Abstract要約: AugPT (Augmentation-driven Prompt Tuning) は、自己完結型蒸留方式のプロンプトチューニング手法である。
AugPTは、トレーニングセット内のラベルなし画像に自己教師付き拡張を導入し、コンセンサステストに基づいた新しいゲーティング機構を導入する。
- 参考スコア(独自算出の注目度): 40.43692693102914
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: For CLIP-based prompt tuning, introducing more data as additional knowledge for enhancing fine-tuning process is proved to be an effective approach. Existing data amplification strategies for prompt tuning typically rely on external knowledge (e.g., large language models or pre-structured knowledge bases), resulting in higher costs for data collection and processing, while generally ignoring further utilization of features in image modality. To address this, we propose Augmentation-driven Prompt Tuning (AugPT), a self-contained distillation-based prompt tuning approach using only internal augmentation on raw dataset to better exploit known features. Specifically, AugPT employs self-supervised augmentation on unlabeled images in the training set, and introduces a novel gating mechanism based on consensus test, reusing the pre-trained prompt tuning backbone model to spontaneously filter noisy samples, further enhancing the quality of augmented views. Extensive experiments validate that AugPT simultaneously enhances model performance and generalization capability without using appended external knowledge. The code of AugPT is available at: https://github.com/JREion/AugPT .
- Abstract(参考訳): CLIPベースのプロンプトチューニングでは、微調整プロセスを強化するための追加知識として、より多くのデータを導入することが効果的なアプローチであることが証明されている。
既存のデータ増幅戦略は、通常外部の知識(例えば、大きな言語モデルや事前構造化された知識ベース)に依存し、データ収集と処理のコストが高くなり、画像のモダリティにおける機能のさらなる活用は無視される。
そこで本研究では,自己完結型蒸留方式のプロンプトチューニング手法であるAugPTを提案する。
具体的には、AugPTはトレーニングセット内のラベルなし画像に自己教師付き拡張を導入し、コンセンサステストに基づく新しいゲーティング機構を導入し、事前訓練されたプロンプトチューニングバックボーンモデルを用いて、ノイズのあるサンプルを自発的にフィルタリングし、拡張ビューの品質をさらに向上させる。
AugPTは外部知識を付加せずにモデル性能と一般化能力を同時に向上する。
AugPTのコードは、https://github.com/JREion/AugPT で公開されている。
関連論文リスト
- MAO: Efficient Model-Agnostic Optimization of Prompt Tuning for Vision-Language Models [37.85176585188362]
即時チューニングのためのモデル非依存最適化(MAO)を提案する。
データ駆動型拡張フレームワークを導入し、初期データの分散を最適化する。
タスク固有の機能処理パイプラインを強化するために、Alterable Regularizationモジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-03-23T17:59:33Z) - Latent Paraphrasing: Perturbation on Layers Improves Knowledge Injection in Language Models [54.385486006684495]
LaPaelは、初期大規模言語モデル層に入力依存ノイズを適用する潜在レベルパラフレーズ法である。
質問応答ベンチマーク実験により、LaPaelは、標準的な微調整および既存のノイズベースアプローチよりも知識注入を改善することを示した。
論文 参考訳(メタデータ) (2024-11-01T15:47:05Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Fourier-basis Functions to Bridge Augmentation Gap: Rethinking Frequency
Augmentation in Image Classification [3.129187821625805]
AFA(Auxiliary Fourier-Basis Augmentation)は、周波数領域の増大を狙った技法であり、視覚的な拡張によって残された拡張ギャップを埋めるものである。
以上の結果から,AFAは,一般的な汚職に対するモデルの堅牢性,OODの一般化,モデルの性能の整合性,摂動の増大に対するモデルの性能の整合性,モデルの標準性能に対する無視的欠陥に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-03-04T11:30:02Z) - Graph Masked Autoencoder for Sequential Recommendation [10.319298705782058]
本稿では,自動エンコーダ付きシーケンシャルレコメンダシステム(MAERec, Graph Masked AutoEncoder-enhanced Sequence Recommender System)を提案する。
提案手法は最先端のベースラインモデルを大幅に上回り,データノイズや空間性に対するより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2023-05-08T10:57:56Z) - Effectiveness of Data Augmentation for Parameter Efficient Tuning with
Limited Data [30.869230680173825]
P-tuningモデルとLoRAモデルの性能向上にデータ拡張が有効であることを示す。
我々は,P-tuningが文の埋め込みを異なる種類の拡張データから分離するより限定的な能力を示すことを示す。
論文 参考訳(メタデータ) (2023-03-05T04:12:17Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Cross-Modal Generative Augmentation for Visual Question Answering [34.9601948665926]
本稿では,複数のモダリティ間の相関を利用したデータ拡張生成モデルを提案する。
提案したモデルは,生成確率によって拡張データの信頼度を定量化し,下流パイプラインと共同して更新することができる。
論文 参考訳(メタデータ) (2021-05-11T04:51:26Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Simple is Better! Lightweight Data Augmentation for Low Resource Slot
Filling and Intent Classification [3.2996723916635267]
単語スパンと文レベルの操作を含む一連の拡張手法である軽量化により、データの不足が軽減されることを示す。
制限されたデータ設定の実験では、軽量化によりスロットフィリングの性能が大幅に向上することが示された。
軽量化は、BERTベースのジョイントインテントとスロットフィリングモデルを改善するため、事前訓練されたLMベースのモデルと組み合わせることでも有益である。
論文 参考訳(メタデータ) (2020-09-08T12:39:47Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。