論文の概要: Decoupled Multi-Predictor Optimization for Inference-Efficient Model Tuning
- arxiv url: http://arxiv.org/abs/2511.03245v1
- Date: Wed, 05 Nov 2025 07:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.369227
- Title: Decoupled Multi-Predictor Optimization for Inference-Efficient Model Tuning
- Title(参考訳): 推論効率の良いモデルチューニングのためのデカップリング多重予測器最適化
- Authors: Liwei Luo, Shuaitengyuan Li, Dongwei Ren, Qilong Wang, Pengfei Zhu, Qinghua Hu,
- Abstract要約: 早期終了とマルチステージ予測器は、推論効率のよいモデルを実現するための簡単な方法を提供する。
初期段階の予測者に高レベルの差別的特徴を同時に供給しながら、初期段階の基本的な特徴を深層に提供するにはどうすればよいのか?
本稿では,初期における低レベル代表能力と高レベル識別能力を効果的に分離する,分離型マルチプレクタ最適化(DMPO)手法を提案する。
- 参考スコア(独自算出の注目度): 59.27124079347153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, remarkable progress has been made in large-scale pre-trained model tuning, and inference efficiency is becoming more crucial for practical deployment. Early exiting in conjunction with multi-stage predictors, when cooperated with a parameter-efficient fine-tuning strategy, offers a straightforward way to achieve an inference-efficient model. However, a key challenge remains unresolved: How can early stages provide low-level fundamental features to deep stages while simultaneously supplying high-level discriminative features to early-stage predictors? To address this problem, we propose a Decoupled Multi-Predictor Optimization (DMPO) method to effectively decouple the low-level representative ability and high-level discriminative ability in early stages. First, in terms of architecture, we introduce a lightweight bypass module into multi-stage predictors for functional decomposition of shallow features from early stages, while a high-order statistics-based predictor is developed for early stages to effectively enhance their discriminative ability. To reasonably train our multi-predictor architecture, a decoupled optimization is proposed to allocate two-phase loss weights for multi-stage predictors during model tuning, where the initial training phase enables the model to prioritize the acquisition of discriminative ability of deep stages via emphasizing representative ability of early stages, and the latter training phase drives discriminative ability towards earlier stages as much as possible. As such, our DMPO can effectively decouple representative and discriminative abilities in early stages in terms of architecture design and model optimization. Experiments across various datasets and pre-trained backbones demonstrate that DMPO clearly outperforms its counterparts when reducing computational cost.
- Abstract(参考訳): 近年,大規模な事前訓練モデルチューニングにおいて顕著な進歩が見られ,実際の展開において推論効率がより重要になっている。
パラメータ効率のよい微調整戦略と協調して、マルチステージ予測器を併用した早期終了は、推論効率のよいモデルを実現するための簡単な方法を提供する。
しかし、重要な課題は未解決のままである: アーリーステージは、どのようにしてより深いステージに低レベルの基本的特徴を提供し、同時にアーリーステージの予測者に高レベルな差別的特徴を供給できるか?
この問題に対処するために,早期に低レベル代表能力と高レベル識別能力を効果的に分離する分離多重予測器最適化法(DMPO)を提案する。
まず,早期から浅層特徴の関数分解を行うための多段階予測器に軽量なバイパスモジュールを導入し,早期に高次統計に基づく予測器を開発し,識別能力を効果的に向上する。
多段階予測器アーキテクチャを合理的に訓練するために、モデルチューニング中に多段階予測器に二相損失重みを割り当てるデカップリング最適化を提案する。
このように、DMPOは、アーキテクチャ設計とモデル最適化の観点から、初期の段階で、代表と差別の能力を効果的に分離することができる。
さまざまなデータセットと事前訓練されたバックボーンにわたる実験により、DMPOは計算コストの削減に際し、それよりも明らかに優れていることが示された。
関連論文リスト
- Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms [35.74919627230777]
推論ファーストの視点は、新しい生成事前学習アルゴリズムに刺激を与えることができると論じる。
本研究では,拡散モデルの予測過程における目標修正による制限への対処が,安定な単一段階アルゴリズムを実現する方法を示す。
論文 参考訳(メタデータ) (2025-03-10T10:27:30Z) - A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.40597004445473]
拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。
従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。
我々はこの問題を生成的二段階最適化問題として定式化する。
従来の2段階法と拡散過程の非互換性を克服する。
論文 参考訳(メタデータ) (2025-02-12T21:44:06Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - A Trajectory-Based Bayesian Approach to Multi-Objective Hyperparameter Optimization with Epoch-Aware Trade-Offs [8.598456741786801]
機械学習モデルのトレーニングには、本質的にリソース集約的でノイズの多い反復的な学習手順が含まれる。
本稿では,2つの特徴を特徴とするトラジェクトリベース多目的ベイズ最適化アルゴリズムを提案する。
実験により,提案アルゴリズムは,チューニング効率を向上しつつ,望ましいトレードオフを効果的に識別できることが示されている。
論文 参考訳(メタデータ) (2024-05-24T07:43:45Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z) - BERT Loses Patience: Fast and Robust Inference with Early Exit [91.26199404912019]
本稿では,事前学習した言語モデルの効率性と堅牢性を向上させるためのプラグイン・アンド・プレイ手法として,Patience-based Early Exitを提案する。
提案手法では,モデルを少ないレイヤで予測できるため,推論効率が向上する。
論文 参考訳(メタデータ) (2020-06-07T13:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。