論文の概要: Bilinear Coordinate Alignment for Training-Free Task-Vector Transfer
- arxiv url: http://arxiv.org/abs/2605.28444v1
- Date: Wed, 27 May 2026 13:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.067885
- Title: Bilinear Coordinate Alignment for Training-Free Task-Vector Transfer
- Title(参考訳): 訓練自由なタスクベクトル移動のための線形座標アライメント
- Authors: Jungyong Son, Jinwook Jung, Minhee Park, Sungyong Baik,
- Abstract要約: 事前訓練されたモデルの新バージョンが利用可能になると、微調整によって得られた専門知識を直接再利用することはできない。
本稿では、Bilinear Coordinateアライメントを介してタスクベクトルを転送するためのトレーニング不要なフレームワークであるBiCoを提案する。
BiCoは、幅、深さ、トレーニング前の設定が異なるモデル間で、既存の転送メソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 13.823003260600663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large-scale pre-trained models is a recent prevalent paradigm for adapting general representations to specialized tasks. However, when a new version of a pre-trained model becomes available, expertise acquired through fine-tuning cannot be directly reused because it is tied to the parameterization of the original model, requiring another costly fine-tuning. To address this inefficiency, recent work uses task vectors, defined as the parameter difference between a fine-tuned model and its base model, to transfer expertise across models. While existing methods bridge disparate models by matching activations or gradients, a significant performance gap remains relative to direct fine-tuning, suggesting that these partial correspondences are insufficient. In this work, instead of viewing a task vector merely as a parameter offset, we revisit the formation of task vectors and show that they can be derived as accumulated bilinear interactions between input-side activations and output-side gradients. Motivated by this observation, we formulate task-vector transfer as a dual-space alignment problem and propose BiCo, a training-free framework for transferring task vectors through Bilinear Coordinate alignment. BiCo estimates orthogonal Procrustes mappings in both spaces using a single forward-backward pass on a small calibration set, without any parameter update. Across extensive computer vision and natural language processing benchmarks, BiCo consistently outperforms existing transfer methods across models that differ in width, depth, and pre-training configuration.
- Abstract(参考訳): 微調整された大規模事前訓練モデル(英語版)は、特殊タスクに一般表現を適用するための近年のパラダイムである。
しかし、事前訓練されたモデルの新バージョンが利用可能になると、原モデルのパラメータ化に結びついており、さらにコストのかかる微調整を必要とするため、微調整によって得られた専門知識を直接再利用することはできない。
この非効率性に対処するため、最近の研究では、細調整されたモデルとそのベースモデルの間のパラメータ差として定義されたタスクベクトルを使用して、モデル間で専門知識を伝達している。
既存手法ではアクティベーションや勾配の整合によって異なるモデルをブリッジするが、直接微調整と比較して大きな性能差は残っており、これらの部分対応は不十分である。
本研究は,タスクベクトルを単にパラメータオフセットとして見るのではなく,タスクベクトルの形成を再考し,入力側アクティベーションと出力側勾配の間の蓄積された双線形相互作用として導出可能であることを示す。
この観測により,2次元空間アライメント問題としてタスクベクトル移動を定式化し,ビリニアコーディネートアライメントを介してタスクベクトルを転送するトレーニング自由フレームワークであるBiCoを提案する。
BiCoは、パラメータを更新することなく、小さなキャリブレーションセット上の単一の前方パスを使用して、両方の空間における直交プロクリストマッピングを推定する。
広範囲にわたるコンピュータビジョンと自然言語処理ベンチマークを通じて、BiCoは、幅、深さ、トレーニング前の設定が異なるモデル間で、既存の転送メソッドを一貫して上回っている。
関連論文リスト
- Distilling Linearized Behavior into Non-Linear Fine-Tuning for Effective Task Arithmetic [17.222346684974607]
線形と標準非線形微調整のギャップを埋める。
曲率規則化された線形化教師の隠れ表現を,従来の微調整で訓練した非線形の学生に蒸留する。
その結果, 線形化モデルの重要な特性をタスク演算に継承し, タスクベクトルの効率的な構成を実現し, 推論時間オーバーヘッドを発生させることなく, 視覚および言語ベンチマーク間での強い性能を実現することができた。
論文 参考訳(メタデータ) (2026-05-18T18:11:34Z) - Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models [25.83401080149413]
転送を成功させる鍵は、新しいモデルの勾配の符号構造にあることを示す。
理想的な勾配符号構造を近似する新しい手法であるGradFixを提案する。
視覚と言語ベンチマークにおいて大きなパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-10-07T13:30:25Z) - Cross-Model Transfer of Task Vectors via Few-Shot Orthogonal Alignment [5.2980803808373516]
タスク演算は、タスク固有の変更をパラメータ空間内のベクトルとして表現することで、効率的なモデル編集を可能にする。
この仮定は、モデルが異なるデータセットで独立して事前トレーニングされるクロスモデル転送設定に適用性を制限する。
本稿では,タスクベクトルを異なる事前学習対象モデルのパラメータ空間にアライメントする,少数ショットアライメントに基づく手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T14:24:06Z) - When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers [64.1656365676171]
タスク算術は、タスクベクトルの重み付き和を追加することで、事前訓練されたモデルを編集することを指す。
本稿では,非関連タスクと非関連タスクのセットを同時に学習する上で,タスク追加の有効性を理論的に証明する。
ドメイン外タスクの否定を実現するために,タスク演算の適切な選択を証明した。
論文 参考訳(メタデータ) (2025-04-15T08:04:39Z) - Efficient Model Editing with Task-Localized Sparse Fine-tuning [14.792099973449794]
そこで本稿では,明示的な線形化を必要とせず,最小限の干渉でスパースタスクベクトルを構築できるTaLoSを提案する。
事前学習されたモデルには、タスク間の勾配感度が一貫して低いパラメータのサブセットが含まれていることがわかった。
実験により,TaLoSは,タスクの追加や否定において,現在の手法より優れている一方で,トレーニングと推論の効率が向上することが証明された。
論文 参考訳(メタデータ) (2025-04-03T14:20:06Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。