論文の概要: Fine-Tuning without Performance Degradation
- arxiv url: http://arxiv.org/abs/2505.00913v1
- Date: Thu, 01 May 2025 23:19:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.863798
- Title: Fine-Tuning without Performance Degradation
- Title(参考訳): パフォーマンス劣化のない微調整
- Authors: Han Wang, Adam White, Martha White,
- Abstract要約: オフラインで学んだ微調整ポリシーは、アプリケーションドメインにおいて依然として大きな課題である。
そこで我々は,Jump Startというアルゴリズムをベースとした新たな微調整アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 24.974921482032617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning policies learned offline remains a major challenge in application domains. Monotonic performance improvement during \emph{fine-tuning} is often challenging, as agents typically experience performance degradation at the early fine-tuning stage. The community has identified multiple difficulties in fine-tuning a learned network online, however, the majority of progress has focused on improving learning efficiency during fine-tuning. In practice, this comes at a serious cost during fine-tuning: initially, agent performance degrades as the agent explores and effectively overrides the policy learned offline. We show across a range of settings, many offline-to-online algorithms exhibit either (1) performance degradation or (2) slow learning (sometimes effectively no improvement) during fine-tuning. We introduce a new fine-tuning algorithm, based on an algorithm called Jump Start, that gradually allows more exploration based on online estimates of performance. Empirically, this approach achieves fast fine-tuning and significantly reduces performance degradations compared with existing algorithms designed to do the same.
- Abstract(参考訳): オフラインで学んだ微調整ポリシーは、アプリケーションドメインにおいて依然として大きな課題である。
emph{fine-tuning}における単調なパフォーマンス改善は、エージェントは通常、ファインチューニングの初期段階でパフォーマンス劣化を経験するため、しばしば困難である。
コミュニティは、学習したネットワークをオンラインで微調整することの難しさを指摘してきたが、進歩の大半は、微調整中の学習効率の改善に集中している。
エージェントがオフラインで学んだポリシーを探索し、効果的にオーバーライドするにつれて、エージェントのパフォーマンスは低下する。
我々は、(1)性能劣化または(2)微調整中の遅い学習(時には改善なし)のどちらかを示すオフライン-オフラインのアルゴリズムを多種多様な設定で示す。
そこで我々は,Jump Startというアルゴリズムをベースとした新たな微調整アルゴリズムを導入する。
実験的に、このアプローチは高速な微調整を実現し、これを行うために設計された既存のアルゴリズムと比較して性能劣化を著しく低減する。
関連論文リスト
- Online-BLS: An Accurate and Efficient Online Broad Learning System for Data Stream Classification [52.251569042852815]
オンライン更新毎にクローズドフォームソリューションを備えたオンライン広範学習システムフレームワークを導入する。
我々は,効果的な重み推定アルゴリズムと効率的なオンライン更新戦略を設計する。
我々のフレームワークは、コンセプトドリフトを伴うデータストリームシナリオに自然に拡張され、最先端のベースラインを超えます。
論文 参考訳(メタデータ) (2025-01-28T13:21:59Z) - Optimistic Critic Reconstruction and Constrained Fine-Tuning for General Offline-to-Online RL [36.65926744075032]
オフラインからオンラインへの強化学習(O2O)は、オンラインインタラクションの制限によって、パフォーマンスが急速に向上する。
近年の研究では、特定のオフラインRL手法の微調整戦略を設計することが多く、任意のオフライン手法から一般のO2O学習を行うことはできない。
この2つのミスマッチを同時に処理し,オフラインメソッドからオンラインメソッドへの一般的なO2O学習を実現することを提案する。
論文 参考訳(メタデータ) (2024-12-25T09:52:22Z) - Efficient Offline Reinforcement Learning: The Critic is Critical [5.916429671763282]
オフ・ポリシー強化学習は、教師付きアプローチを超えてパフォーマンスを改善するための有望なアプローチを提供する。
本稿では、まず行動方針を学習し、教師付き学習で批判し、その後に非政治強化学習で改善することによるベスト・オブ・ボス・アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-19T09:16:38Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Online Adaptive Disparity Estimation for Dynamic Scenes in Structured
Light Systems [17.53719804060679]
このパフォーマンスギャップを埋める解決策として、自己監督型オンライン適応が提案されている。
本稿では,長い逐次入力に基づく教師なし損失関数を提案する。
提案手法は,オンライン適応速度を大幅に向上し,目に見えないデータに対して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-13T08:00:33Z) - Improving Offline-to-Online Reinforcement Learning with Q Conditioned State Entropy Exploration [29.891468119032]
オフライン強化学習(RL)の事前学習方針を微調整する方法について検討する。
固有報酬としてQ条件状態エントロピー(QCSE)を提案する。
QCSEによる大幅な改善(CQLで約13%、Cal-QLで8%)を観察します。
論文 参考訳(メタデータ) (2023-10-07T00:02:05Z) - Efficient Methods for Non-stationary Online Learning [61.63338724659592]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
また、さらに強化された測度、すなわち「インターバル・ダイナミック・リピート」を研究し、ラウンド当たりの射影数を$mathcalO(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Low-light Image Enhancement by Retinex Based Algorithm Unrolling and
Adjustment [50.13230641857892]
本稿では,低照度画像強調(LIE)問題に対する新たなディープラーニングフレームワークを提案する。
提案フレームワークは,大域的明るさと局所的明るさ感度の両方を考慮したアルゴリズムアンロールと調整ネットワークに着想を得た分解ネットワークを含む。
一連の典型的なLIEデータセットの実験では,既存の手法と比較して,定量的かつ視覚的に,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-12T03:59:38Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Online Boosting with Bandit Feedback [36.33990847170534]
学習者が限られた情報しか入手できない場合、回帰タスクのオンライン強化の問題を考える。
ノイズの多いマルチポイント帯域フィードバックを持つオンラインブースティングアルゴリズムと、勾配のある新しいオンライン凸最適化アルゴリズムという、2つの意味を持つ効率的な後悔の最小化法を提案する。
論文 参考訳(メタデータ) (2020-07-23T12:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。