論文の概要: 5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks
- arxiv url: http://arxiv.org/abs/2408.08345v2
- Date: Tue, 27 Aug 2024 05:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 18:28:54.378901
- Title: 5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition Tasks
- Title(参考訳): 5%>100%:視覚認知課題におけるフルファインチューニングのパフォーマンスの欠如
- Authors: Dongshuo Yin, Leiyi Hu, Bin Li, Youqun Zhang, Xue Yang,
- Abstract要約: 本稿では,新しい適応型チューニング手法であるマルチ認知型ビジュアルアダプタ(Mona)チューニングを提案する。
まず、視覚信号の処理能力を高めるために、複数の視覚フレンドリーなフィルタをアダプタに導入する。
次に,適応器に拡張正規化層を追加し,視覚フィルタの入力特徴の分布を調節する。
- 参考スコア(独自算出の注目度): 6.391868559857146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training & fine-tuning can enhance the transferring efficiency and performance in visual tasks. Recent delta-tuning methods provide more options for visual classification tasks. Despite their success, existing visual delta-tuning art fails to exceed the upper limit of full fine-tuning on challenging tasks like object detection and segmentation. To find a competitive alternative to full fine-tuning, we propose the Multi-cognitive Visual Adapter (Mona) tuning, a novel adapter-based tuning method. First, we introduce multiple vision-friendly filters into the adapter to enhance its ability to process visual signals, while previous methods mainly rely on language-friendly linear filters. Second, we add the scaled normalization layer in the adapter to regulate the distribution of input features for visual filters. To fully demonstrate the practicality and generality of Mona, we conduct experiments on multiple representative visual tasks, including instance segmentation on COCO, semantic segmentation on ADE20K, object detection on Pascal VOC, oriented object detection on DOTA/STAR, and image classification on three common datasets. Exciting results illustrate that Mona surpasses full fine-tuning on all these tasks, and is the only delta-tuning method outperforming full fine-tuning on the above various tasks. For example, Mona achieves 1% performance gain on the COCO dataset compared to full fine-tuning. Comprehensive results suggest that Mona-tuning is more suitable for retaining and utilizing the capabilities of pre-trained models than full fine-tuning. The code will be released at https://github.com/Leiyi-Hu/mona.
- Abstract(参考訳): 事前トレーニングと微調整は、視覚タスクの転送効率と性能を高めることができる。
最近のデルタチューニング手法は、視覚的分類タスクにより多くの選択肢を提供する。
彼らの成功にもかかわらず、既存の視覚デルタ調整技術は、オブジェクト検出やセグメンテーションといった困難なタスクに対する完全な微調整の上限を超えることができません。
そこで本研究では,マルチ認知型ビジュアルアダプタ(Mona)チューニング方式を提案する。
まず,複数の視覚に優しいフィルタを導入し,視覚信号の処理能力を高め,従来の手法は言語に優しい線形フィルタに大きく依存していた。
次に,適応器に拡張正規化層を追加し,視覚フィルタの入力特徴の分布を調節する。
モナの実用性と汎用性を実証するため,COCOのインスタンスセグメンテーション,ADE20Kのセマンティックセグメンテーション,Pascal VOCのオブジェクト検出,DOTA/STARのオブジェクト指向オブジェクト検出,3つの共通データセットのイメージ分類など,複数の視覚的タスクについて実験を行った。
興奮的な結果は、モナがこれら全てのタスクで完全な微調整を超越していることを示し、上記の様々なタスクで完全な微調整を行う唯一のデルタ微調整法である。
例えば、完全な微調整に比べて、MonaはCOCOデータセットで1%のパフォーマンス向上を達成した。
総合的な結果は、モナチューニングは完全な微調整よりも事前訓練されたモデルの能力を維持・活用するのに適していることを示唆している。
コードはhttps://github.com/Leiyi-Hu/mona.comで公開される。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Adapter is All You Need for Tuning Visual Tasks [3.6149777601911097]
本稿では,新しい適応型チューニング手法であるマルチ認知型ビジュアルアダプタ(Mona)チューニングを提案する。
まず、視覚信号の処理能力を高めるために、複数の視覚フレンドリーなフィルタをアダプタに導入する。
次に,適応器に拡張正規化層を追加し,視覚フィルタの入力特徴の分布を調節する。
論文 参考訳(メタデータ) (2023-11-25T12:33:54Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Pre-train, Adapt and Detect: Multi-Task Adapter Tuning for Camouflaged
Object Detection [38.5505943598037]
カモフラージュされた物体を検出するために, 事前学習, 適応, 検出のパラダイムを提案する。
大規模な事前学習モデルを導入することで、大量のマルチモーダルデータから得られた豊富な知識を直接CODに転送することができる。
提案手法は既存のCODモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-20T08:25:38Z) - Visual Tuning [143.43997336384126]
微調整ビジュアルモデルは、多くの下流視覚タスクにおいて有望なパフォーマンスを示すことが広く示されている。
最近の進歩は、事前訓練されたパラメータ全体をフルチューニングするよりも優れたパフォーマンスを達成することができる。
この調査は、最近の作品の大規模かつ思慮深い選択を特徴付け、作業とモデルの体系的かつ包括的な概要を提供する。
論文 参考訳(メタデータ) (2023-05-10T11:26:36Z) - Active Finetuning: Exploiting Annotation Budget in the
Pretraining-Finetuning Paradigm [132.9949120482274]
本稿では,事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てる。
本研究では,アクティブな微調整タスクのためのActiveFTと呼ばれる新しい手法を提案する。
画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。
論文 参考訳(メタデータ) (2023-03-25T07:17:03Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - AMF: Adaptable Weighting Fusion with Multiple Fine-tuning for Image
Classification [14.05052135034412]
本稿では,各データサンプルの微調整戦略を適応的に決定する適応型マルチチューニング手法を提案する。
提案手法は,FGVC-Aircraft,Describable Textureのデータセットにおいて,1.69%,2.79%の精度で標準的な微調整手法より優れている。
論文 参考訳(メタデータ) (2022-07-26T14:50:03Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。