論文の概要: Task Alignment: A simple and effective proxy for model merging in computer vision
- arxiv url: http://arxiv.org/abs/2604.12935v1
- Date: Tue, 14 Apr 2026 16:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.560266
- Title: Task Alignment: A simple and effective proxy for model merging in computer vision
- Title(参考訳): タスクアライメント:コンピュータビジョンにおけるモデルマージのためのシンプルで効果的なプロキシ
- Authors: Pau de Jorge, César Roberto de Souza, Björn Michele, Mert Bülent Sarıyıldız, Philippe Weinzaepfel, Florent Perronnin, Diane Larlus, Yannis Kalantidis,
- Abstract要約: コンピュータビジョンにおけるモデルマージのほとんどの評価は、CLIPを用いた画像分類に限られている。
タスクアライメントプロキシを導入し、ハイパーパラメータ選択を高速化する方法を示す。
モデルマージの適用性を,CLIPに基づく分類を超えてマルチタスクビジョンモデルに拡張する。
- 参考スコア(独自算出の注目度): 29.259838995576303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently merging several models fine-tuned for different tasks, but stemming from the same pretrained base model, is of great practical interest. Despite extensive prior work, most evaluations of model merging in computer vision are restricted to image classification using CLIP, where different classification datasets define different tasks. In this work, our goal is to make model merging more practical and show its relevance on challenging scenarios beyond this specific setting. In most vision scenarios, different tasks rely on trainable and usually heterogeneous decoders. Differently from previous studies with frozen decoders, where merged models can be evaluated right away, the non-trivial cost of decoder training renders hyperparameter selection based on downstream performance impractical. To address this, we introduce the task alignment proxy, and show how it can be used to speed up hyperparameter selection by orders of magnitude while retaining performance. Equipped with the task alignment proxy, we extend the applicability of model merging to multi-task vision models beyond CLIP-based classification.
- Abstract(参考訳): 異なるタスクのために微調整された複数のモデルを効率よくマージするが、同じ事前訓練されたベースモデルに由来するため、非常に実践的な関心事である。
コンピュータビジョンにおけるモデルマージの評価のほとんどは、様々な分類データセットが異なるタスクを定義するCLIPを用いた画像分類に限られている。
この作業では、モデルマージをより現実的なものにし、この特定の設定を超えた挑戦的なシナリオにその関連性を示すことが目標です。
ほとんどのビジョンシナリオでは、異なるタスクはトレーニング可能で、通常不均一なデコーダに依存します。
統合モデルをすぐに評価できるフリーズデコーダを用いた以前の研究とは異なり、デコーダトレーニングの非自明なコストは、下流のパフォーマンス非現実性に基づいてハイパーパラメータ選択を行う。
これを解決するために,タスクアライメントプロキシを導入し,性能を保ちながら高パラメータ選択を桁違いに高速化する方法を示す。
タスクアライメントプロキシを具備し、CLIPに基づく分類を超えたマルチタスク視覚モデルにモデルマージの適用性を拡張する。
関連論文リスト
- XR-VLM: Cross-Relationship Modeling with Multi-part Prompts and Visual Features for Fine-Grained Recognition [20.989787824067143]
XR-VLMは、相互関係をモデル化することによって微妙な違いを発見する新しいメカニズムである。
マルチパースペクティブな記述をキャプチャするマルチパート・プロンプト学習モジュールを開発した。
提案手法は,現在の最先端手法と比較して,大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-03-10T08:58:05Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。