論文の概要: Portable Reward Tuning: Towards Reusable Fine-Tuning across Different Pretrained Models
- arxiv url: http://arxiv.org/abs/2502.12776v1
- Date: Tue, 18 Feb 2025 11:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:35.030320
- Title: Portable Reward Tuning: Towards Reusable Fine-Tuning across Different Pretrained Models
- Title(参考訳): ポータブルリワードチューニング:様々な事前訓練モデルにまたがる再利用可能なファインチューニングを目指して
- Authors: Daiki Chijiwa, Taku Hasegawa, Kyosuke Nishida, Kuniko Saito, Susumu Takeuchi,
- Abstract要約: 基礎となる基盤モデルは、最終的には新しいものに置き換えられるべきである。
既存の作業は、推論時間チューニングによってこの問題に対処する。
新たな微調整原理であるポータブルリワードチューニングを提案する。
- 参考スコア(独自算出の注目度): 16.005066901515512
- License:
- Abstract: While foundation models have been exploited for various expert tasks through fine-tuning, any foundation model will become outdated due to its old knowledge or limited capability. Thus the underlying foundation model should be eventually replaced by new ones, which leads to repeated cost of fine-tuning these new models. Existing work addresses this problem by inference-time tuning, i.e., modifying the output probabilities from the new foundation model with the outputs from the old foundation model and its fine-tuned model, which involves an additional overhead in inference by the latter two models. In this paper, we propose a new fine-tuning principle, Portable Reward Tuning (PRT), that reduces the inference overhead by its nature, based on the reformulation of fine-tuning as the reward maximization. Specifically, instead of fine-tuning parameters of the foundation models, PRT trains the reward model explicitly through the same loss function as in fine-tuning. During inference, the reward model can be used with any foundation model (with the same set of vocabularies or labels) through the formulation of reward maximization. Experimental results, covering both vision and language models, demonstrate that the PRT-trained model can achieve comparable accuracy to the existing work of inference-time tuning, with less inference cost.
- Abstract(参考訳): ファウンデーションモデルは、微調整によって様々な専門家タスクに活用されているが、その古い知識や限られた能力のために、どんな基礎モデルも時代遅れになる。
したがって、基礎となる基盤モデルを最終的に新しいモデルに置き換えるべきであり、それによってこれらの新しいモデルを微調整するコストが繰り返される。
既存の作業は、推論時間チューニング、すなわち、新しい基礎モデルからの出力確率を、古い基礎モデルからの出力と、後者の2つのモデルによる推論のさらなるオーバーヘッドを含む微調整モデルによって修正することでこの問題に対処する。
本稿では,微調整を報酬の最大化として再構成した上で,その特性によって推論オーバーヘッドを低減させる新たな微調整原理であるポータブル・リワード・チューニング(PRT)を提案する。
具体的には、基礎モデルの微調整パラメータの代わりに、PRTは微調整と同じ損失関数を通して報酬モデルを明示的に訓練する。
推論の間、報酬モデルは、報酬の最大化の定式化によって、どんな基礎モデル(同じ語彙やラベルの集合)でも使用できる。
視覚モデルと言語モデルの両方をカバーする実験結果から、PRT学習モデルが既存の推論時間チューニングの作業と同等の精度で、推論コストを低減できることを示した。
関連論文リスト
- Rethinking Bradley-Terry Models in Preference-Based Reward Modeling: Foundations, Theory, and Alternatives [14.401557416713315]
報奨モデルにおけるBradley-Terryモデル(BT)モデルの使用の基礎を再考する。
我々は,下流最適化の観点から,BTモデルが必須選択ではないことを論じる。
既成のバイナリ分類器と互換性のある,単純で簡単な上行法を提案する。
論文 参考訳(メタデータ) (2024-11-07T18:57:03Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think [53.2706196341054]
認識された非効率性は、これまで気付かれなかった推論パイプラインの欠陥によって引き起こされたことを示している。
タスク固有の損失を伴う単一ステップモデル上でエンドツーエンドの微調整を行い、他の拡散に基づく深さモデルや正規推定モデルよりも優れた決定論的モデルを得る。
論文 参考訳(メタデータ) (2024-09-17T16:58:52Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Aggregate Representation Measure for Predictive Model Reusability [2.93774265594295]
分散シフトにおけるトレーニングモデルの再学習コストを推定する予測量化器を提案する。
ARM(Aggregated Representation Measure)は、古いデータから新しいデータへのモデル表現の変化を定量化する手法である。
論文 参考訳(メタデータ) (2024-05-15T14:14:34Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。