論文の概要: Transporting Task Vectors across Different Architectures without Training
- arxiv url: http://arxiv.org/abs/2602.12952v1
- Date: Fri, 13 Feb 2026 14:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.977716
- Title: Transporting Task Vectors across Different Architectures without Training
- Title(参考訳): トレーニングなしで異なるアーキテクチャをまたがるタスクベクトルの転送
- Authors: Filippo Rinaldi, Aniello Panariello, Giacomo Salici, Angelo Porrello, Simone Calderara,
- Abstract要約: 異種モデルにまたがってタスク固有の更新をトランスポートするためのトレーニング不要な方法であるSoseusを紹介した。
パラメータを直接マッチングするのではなく、中間表現で引き起こされる機能的効果によってタスク更新を特徴付ける。
- 参考スコア(独自算出の注目度): 18.853461748616333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting large pre-trained models to downstream tasks often produces task-specific parameter updates that are expensive to relearn for every model variant. While recent work has shown that such updates can be transferred between models with identical architectures, transferring them across models of different widths remains largely unexplored. In this work, we introduce Theseus, a training-free method for transporting task-specific updates across heterogeneous models. Rather than matching parameters directly, we characterize a task update by the functional effect it induces on intermediate representations. We formalize task-vector transport as a functional matching problem on observed activations and show that, after aligning representation spaces via orthogonal Procrustes analysis, it admits a stable closed-form solution that preserves the geometry of the update. We evaluate Theseus on vision and language models across different widths, showing consistent improvements over strong baselines without additional training or backpropagation. Our results show that task updates can be meaningfully transferred across architectures when task identity is defined functionally rather than parametrically.
- Abstract(参考訳): 大規模な事前学習されたモデルをダウンストリームタスクに適応させることで、各モデルの変種を再学習するのにコストがかかるタスク固有のパラメーター更新が発生することが多い。
最近の研究では、同じアーキテクチャを持つモデル間でこのような更新を転送できることが示されているが、異なる幅のモデル間でそれらを転送することは、ほとんど探索されていない。
本研究では,タスク固有の更新を異種モデル間で伝達するトレーニング不要な方法であるThesusを紹介する。
パラメータを直接マッチングするのではなく、中間表現で引き起こされる機能的効果によってタスク更新を特徴付ける。
我々は、観測されたアクティベーションの関数的マッチング問題としてタスクベクトル輸送を定式化し、直交プロクリスト解析により表現空間を整列させた後、更新の幾何を保存した安定した閉形式解が認められることを示す。
異なる幅にわたる視覚モデルと言語モデル上でのテセウスの評価を行い、トレーニングやバックプロパゲーションを伴わずに、強いベースラインよりも一貫した改善を示す。
この結果から,タスクアイデンティティがパラメトリックではなく機能的に定義される場合,タスク更新はアーキテクチャ間で有意に伝達可能であることが示された。
関連論文リスト
- Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models [25.83401080149413]
転送を成功させる鍵は、新しいモデルの勾配の符号構造にあることを示す。
理想的な勾配符号構造を近似する新しい手法であるGradFixを提案する。
視覚と言語ベンチマークにおいて大きなパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-10-07T13:30:25Z) - Dynamic Perturbed Adaptive Method for Infinite Task-Conflicting Time Series [0.0]
時系列タスクを、異なる目的の入力出力マッピングとして定式化し、同じ入力が異なる出力を生成する。
そこで本研究では,頻繁なタスクシフトの下で適応性を評価するために,多数の相反するサブタスクを持つ合成データセットを構築した。
本研究では,トランク・ブランチアーキテクチャに基づく動的摂動適応手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T08:33:57Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Pre-Trained Model Recommendation for Downstream Fine-tuning [22.343011779348682]
モデル選択は、市販の事前訓練されたモデルをランク付けし、新しいターゲットタスクに最も適したモデルを選択することを目的としている。
既存のモデル選択テクニックはスコープ内で制約されることが多く、モデルとタスク間の微妙な関係を見落としてしまう傾向があります。
我々は,多種多様な大規模モデルリポジトリを探索する実用的フレームワーク textbfFennec を提案する。
論文 参考訳(メタデータ) (2024-03-11T02:24:32Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。