論文の概要: Proxy-FDA: Proxy-based Feature Distribution Alignment for Fine-tuning Vision Foundation Models without Forgetting
- arxiv url: http://arxiv.org/abs/2505.24088v1
- Date: Fri, 30 May 2025 00:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.710966
- Title: Proxy-FDA: Proxy-based Feature Distribution Alignment for Fine-tuning Vision Foundation Models without Forgetting
- Title(参考訳): Proxy-FDA:設定なしで微調整型ビジョンファウンデーションモデルのためのプロキシベースの特徴分布アライメント
- Authors: Chen Huang, Skyler Seto, Hadi Pouransari, Mehrdad Farajtabar, Raviteja Vemulapalli, Fartash Faghri, Oncel Tuzel, Barry-John Theobald, Josh Susskind,
- Abstract要約: ビジョンファウンデーションモデルは、現実世界の概念の豊かな表現をエンコードする大量のデータに基づいて事前訓練される。
近年の頑健な微調整手法は、微調整性能に影響を与えることなく、事前知識の忘れを緩和することを目的としている。
本稿では,特徴空間の構造的知識を明示的に保存する新しい正則化手法であるProxy-FDAを提案する。
- 参考スコア(独自算出の注目度): 24.10386630735279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision foundation models pre-trained on massive data encode rich representations of real-world concepts, which can be adapted to downstream tasks by fine-tuning. However, fine-tuning foundation models on one task often leads to the issue of concept forgetting on other tasks. Recent methods of robust fine-tuning aim to mitigate forgetting of prior knowledge without affecting the fine-tuning performance. Knowledge is often preserved by matching the original and fine-tuned model weights or feature pairs. However, such point-wise matching can be too strong, without explicit awareness of the feature neighborhood structures that encode rich knowledge as well. We propose a novel regularization method Proxy-FDA that explicitly preserves the structural knowledge in feature space. Proxy-FDA performs Feature Distribution Alignment (using nearest neighbor graphs) between the pre-trained and fine-tuned feature spaces, and the alignment is further improved by informative proxies that are generated dynamically to increase data diversity. Experiments show that Proxy-FDA significantly reduces concept forgetting during fine-tuning, and we find a strong correlation between forgetting and a distributional distance metric (in comparison to L2 distance). We further demonstrate Proxy-FDA's benefits in various fine-tuning settings (end-to-end, few-shot and continual tuning) and across different tasks like image classification, captioning and VQA.
- Abstract(参考訳): ビジョンファウンデーションモデルは、大量のデータに基づいて事前訓練された実世界のコンセプトの豊かな表現を符号化し、微調整によって下流のタスクに適応することができる。
しかし、あるタスクに対する微調整の基礎モデルは、しばしば他のタスクを忘れる概念の問題につながる。
近年の頑健な微調整手法は、微調整性能に影響を与えることなく、事前知識の忘れを緩和することを目的としている。
知識は、元のモデル重みと微調整されたモデル重みまたは特徴ペアをマッチングすることによって保存されることが多い。
しかし、そのようなポイントワイズマッチングは、豊富な知識を符号化する特徴近傍構造を明示的に認識することなく、強すぎる可能性がある。
本稿では,特徴空間の構造的知識を明示的に保存する新しい正則化手法であるProxy-FDAを提案する。
Proxy-FDAは、事前訓練された特徴空間と微調整された特徴空間の間の特徴分布アライメント(近傍のグラフを用いて)を実行し、データ多様性を高めるために動的に生成される情報的プロキシによってアライメントをさらに改善する。
実験の結果,Proxy-FDAは微調整時に概念を忘れることを大幅に減らし,(L2距離と比較して)忘れることと分布距離距離の相関が強いことがわかった。
さらに、画像分類、キャプション、VQAといったさまざまなタスクにわたって、さまざまな微調整設定(エンドツーエンド、複数ショット、連続的なチューニング)におけるProxy-FDAのメリットを実証します。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - A Non-isotropic Probabilistic Take on Proxy-based Deep Metric Learning [49.999268109518255]
プロキシベースのDeep Metric Learningは、クラス代表者(プロキシ)に画像を埋め込むことで学習する
さらに、プロキシベースのDMLは、クラス内部構造を学ぶのに苦労している。
両問題に対処するために,非等方的確率的プロキシベースDMLを導入する。
論文 参考訳(メタデータ) (2022-07-08T09:34:57Z) - FedAvg with Fine Tuning: Local Updates Lead to Representation Learning [54.65133770989836]
Federated Averaging (FedAvg)アルゴリズムは、クライアントノードでのいくつかのローカルな勾配更新と、サーバでのモデル平均更新の交互化で構成されている。
我々は、FedAvgの出力の一般化の背景には、クライアントのタスク間の共通データ表現を学習する能力があることを示す。
異種データを用いたフェデレーション画像分類におけるFedAvgの表現学習能力を示す実証的証拠も提供する。
論文 参考訳(メタデータ) (2022-05-27T00:55:24Z) - Boosting the Generalization Capability in Cross-Domain Few-shot Learning
via Noise-enhanced Supervised Autoencoder [23.860842627883187]
我々は、新しいノイズ強調型教師付きオートエンコーダ(NSAE)を用いて、特徴分布のより広範なバリエーションを捉えるようモデルに教える。
NSAEは入力を共同で再構築し、入力のラベルと再構成されたペアを予測することによってモデルを訓練する。
また、NSAE構造を利用して、より適応性を高め、対象領域の分類性能を向上させる2段階の微調整手順を提案する。
論文 参考訳(メタデータ) (2021-08-11T04:45:56Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z) - Understanding Clipping for Federated Learning: Convergence and
Client-Level Differential Privacy [67.4471689755097]
本稿では, 切断したFedAvgが, 実質的なデータ均一性でも驚くほど良好に動作できることを実証的に示す。
本稿では,差分プライベート(DP)FedAvgアルゴリズムの収束解析を行い,クリッピングバイアスとクライアント更新の分布との関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-25T14:47:19Z) - FjORD: Fair and Accurate Federated Learning under heterogeneous targets
with Ordered Dropout [16.250862114257277]
ニューラルネットワークにおける知識の順序付きネスト表現を実現するメカニズムであるOrdered Dropoutを紹介します。
我々は,この手法と自己蒸留手法を,FjORDと呼ばれるフレームワークでフェデレートラーニングの領域に導入する。
FjORDは、ネストされた構造を維持しながら、最先端のベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2021-02-26T13:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。