論文の概要: Efficient Adaptation of Pre-trained Vision Transformer underpinned by Approximately Orthogonal Fine-Tuning Strategy
- arxiv url: http://arxiv.org/abs/2507.13260v1
- Date: Thu, 17 Jul 2025 16:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.570587
- Title: Efficient Adaptation of Pre-trained Vision Transformer underpinned by Approximately Orthogonal Fine-Tuning Strategy
- Title(参考訳): 約直交微調整による事前学習型視覚変換器の適応性
- Authors: Yiting Yang, Hao Luo, Yuan Sun, Qingsen Yan, Haokui Zhang, Wei Dong, Guoqing Wang, Peng Wang, Yang Yang, Hengtao Shen,
- Abstract要約: 約直交微調整(AOFT)による低ランク重量行列の表現法を提案する。
本手法は,下流画像分類タスクにおける競合性能を実現する。
- 参考スコア(独自算出の注目度): 57.54306942529943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A prevalent approach in Parameter-Efficient Fine-Tuning (PEFT) of pre-trained Vision Transformers (ViT) involves freezing the majority of the backbone parameters and solely learning low-rank adaptation weight matrices to accommodate downstream tasks. These low-rank matrices are commonly derived through the multiplication structure of down-projection and up-projection matrices, exemplified by methods such as LoRA and Adapter. In this work, we observe an approximate orthogonality among any two row or column vectors within any weight matrix of the backbone parameters; however, this property is absent in the vectors of the down/up-projection matrices. Approximate orthogonality implies a reduction in the upper bound of the model's generalization error, signifying that the model possesses enhanced generalization capability. If the fine-tuned down/up-projection matrices were to exhibit this same property as the pre-trained backbone matrices, could the generalization capability of fine-tuned ViTs be further augmented? To address this question, we propose an Approximately Orthogonal Fine-Tuning (AOFT) strategy for representing the low-rank weight matrices. This strategy employs a single learnable vector to generate a set of approximately orthogonal vectors, which form the down/up-projection matrices, thereby aligning the properties of these matrices with those of the backbone. Extensive experimental results demonstrate that our method achieves competitive performance across a range of downstream image classification tasks, confirming the efficacy of the enhanced generalization capability embedded in the down/up-projection matrices.
- Abstract(参考訳): 事前訓練されたビジョントランスフォーマー(ViT)のパラメータ効率の良いファインチューニング(PEFT)における一般的なアプローチは、バックボーンパラメータの大部分を凍結し、下流タスクに対応するために単にローランク適応重み行列を学習することである。
これらの低ランク行列は、一般に、ローラやアダプターといった手法で例示される下降射影行列と上降射影行列の乗法構造によって導かれる。
本研究では、バックボーンパラメータの重み行列内の任意の2行または列ベクトル間の近似直交性を観察するが、この性質はダウン/アップ・プロジェクション行列のベクトルには存在しない。
近似直交性(英: Approximate orthogonality)は、モデルの一般化誤差の上界の減少を意味し、モデルが拡張一般化能力を持つことを示す。
微調整ダウン/アッププロジェクション行列が、事前訓練したバックボーン行列と同じ性質を示す場合、微調整ViTの一般化能力をさらに高めることができるか?
この問題に対処するため, 約直交微調整(AOFT)戦略を提案する。
この戦略は1つの学習可能なベクトルを用いて、ほぼ直交ベクトルの集合を生成し、それがダウン/アップ・プロジェクション行列を形成し、これらの行列の性質とバックボーンの性質を整合させる。
提案手法は,ダウン/アップ・プロジェクション行列に埋め込まれた拡張一般化機能の有効性を検証し,ダウンストリーム画像分類タスクにおける競合性能を実証した。
関連論文リスト
- Fundamental Limits of Matrix Sensing: Exact Asymptotics, Universality, and Applications [30.659400341011004]
複数のサンプルからベイズ最適学習性能を特徴付ける厳密な方程式を提案する。
我々は統計物理学から非厳密な手法を用いて得られた予測を数学的に確立する。
論文 参考訳(メタデータ) (2025-03-18T10:36:30Z) - Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Householder Projector for Unsupervised Latent Semantics Discovery [58.92485745195358]
Householder Projectorは、画像の忠実さを犠牲にすることなく、StyleGANがより複雑で正確なセマンティック属性を見つけるのに役立つ。
プロジェクタを事前訓練したStyleGAN2/StyleGAN3に統合し、複数のベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2023-07-16T11:43:04Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Weight Vector Tuning and Asymptotic Analysis of Binary Linear
Classifiers [82.5915112474988]
本稿では,スカラーによる判別器の分解をパラメータ化することで,ジェネリックバイナリ線形分類器の重みベクトルチューニングを提案する。
また,重みベクトルチューニングは,高推定雑音下での線形判別分析(LDA)の性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-10-01T17:50:46Z) - Adversarially-Trained Nonnegative Matrix Factorization [77.34726150561087]
非負行列ファクタリゼーションの逆学習版を検討する。
我々の定式化では、攻撃者は与えられたデータ行列に有界ノルムの任意の行列を追加する。
辞書と係数行列を最適化するために, 逆学習に触発された効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-04-10T13:13:17Z) - Projection techniques to update the truncated SVD of evolving matrices [17.22107982549168]
本稿では,新しい行や列の追加に伴う行列のランク-k truncated Singular Value Decomposition (SVD) の更新の問題について考察する。
提案するフレームワークは純粋に代数的であり、一般的な更新問題をターゲットにしている。
実アプリケーションから得られた行列の結果から,提案アルゴリズムの精度が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-13T13:46:08Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。