論文の概要: Fine-Tuning without Performance Degradation
- arxiv url: http://arxiv.org/abs/2505.00913v1
- Date: Thu, 01 May 2025 23:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.863798
- Title: Fine-Tuning without Performance Degradation
- Title(参考訳): パフォーマンス劣化のない微調整
- Authors: Han Wang, Adam White, Martha White,
- Abstract要約: オフラインで学んだ微調整ポリシーは、アプリケーションドメインにおいて依然として大きな課題である。
そこで我々は,Jump Startというアルゴリズムをベースとした新たな微調整アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 24.974921482032617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning policies learned offline remains a major challenge in application domains. Monotonic performance improvement during \emph{fine-tuning} is often challenging, as agents typically experience performance degradation at the early fine-tuning stage. The community has identified multiple difficulties in fine-tuning a learned network online, however, the majority of progress has focused on improving learning efficiency during fine-tuning. In practice, this comes at a serious cost during fine-tuning: initially, agent performance degrades as the agent explores and effectively overrides the policy learned offline. We show across a range of settings, many offline-to-online algorithms exhibit either (1) performance degradation or (2) slow learning (sometimes effectively no improvement) during fine-tuning. We introduce a new fine-tuning algorithm, based on an algorithm called Jump Start, that gradually allows more exploration based on online estimates of performance. Empirically, this approach achieves fast fine-tuning and significantly reduces performance degradations compared with existing algorithms designed to do the same.
- Abstract(参考訳): オフラインで学んだ微調整ポリシーは、アプリケーションドメインにおいて依然として大きな課題である。
emph{fine-tuning}における単調なパフォーマンス改善は、エージェントは通常、ファインチューニングの初期段階でパフォーマンス劣化を経験するため、しばしば困難である。
コミュニティは、学習したネットワークをオンラインで微調整することの難しさを指摘してきたが、進歩の大半は、微調整中の学習効率の改善に集中している。
エージェントがオフラインで学んだポリシーを探索し、効果的にオーバーライドするにつれて、エージェントのパフォーマンスは低下する。
我々は、(1)性能劣化または(2)微調整中の遅い学習(時には改善なし)のどちらかを示すオフライン-オフラインのアルゴリズムを多種多様な設定で示す。
そこで我々は,Jump Startというアルゴリズムをベースとした新たな微調整アルゴリズムを導入する。
実験的に、このアプローチは高速な微調整を実現し、これを行うために設計された既存のアルゴリズムと比較して性能劣化を著しく低減する。
関連論文リスト
- Online-BLS: An Accurate and Efficient Online Broad Learning System for Data Stream Classification [52.251569042852815]
オンライン更新毎にクローズドフォームソリューションを備えたオンライン広範学習システムフレームワークを導入する。
我々は,効果的な重み推定アルゴリズムと効率的なオンライン更新戦略を設計する。
我々のフレームワークは、コンセプトドリフトを伴うデータストリームシナリオに自然に拡張され、最先端のベースラインを超えます。
論文 参考訳(メタデータ) (2025-01-28T13:21:59Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Online Adaptive Disparity Estimation for Dynamic Scenes in Structured
Light Systems [17.53719804060679]
このパフォーマンスギャップを埋める解決策として、自己監督型オンライン適応が提案されている。
本稿では,長い逐次入力に基づく教師なし損失関数を提案する。
提案手法は,オンライン適応速度を大幅に向上し,目に見えないデータに対して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-13T08:00:33Z) - Improving Offline-to-Online Reinforcement Learning with Q Conditioned State Entropy Exploration [29.891468119032]
オフライン強化学習(RL)の事前学習方針を微調整する方法について検討する。
固有報酬としてQ条件状態エントロピー(QCSE)を提案する。
QCSEによる大幅な改善(CQLで約13%、Cal-QLで8%)を観察します。
論文 参考訳(メタデータ) (2023-10-07T00:02:05Z) - Efficient Methods for Non-stationary Online Learning [61.63338724659592]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
また、さらに強化された測度、すなわち「インターバル・ダイナミック・リピート」を研究し、ラウンド当たりの射影数を$mathcalO(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。