論文の概要: Cost-Aware Learning
- arxiv url: http://arxiv.org/abs/2604.28020v1
- Date: Thu, 30 Apr 2026 15:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.169194
- Title: Cost-Aware Learning
- Title(参考訳): コストアウェアラーニング
- Authors: Clara Mohri, Amir Globerson, Haim Kaplan, Tomer Koren, Yishay Mansour,
- Abstract要約: 本稿では,異なるコンポーネント関数をサンプリングするコスト認識学習の問題点について考察する。
凸関数に対するコスト・アウェア・Descentアルゴリズムを提案し、そのコスト複雑性を導出し誤差を$$$とする。
本稿では,性能を保ちつつポリシー最適化のコストを削減するアルゴリズムであるCost-Aware GRPOを紹介する。
- 参考スコア(独自算出の注目度): 72.31444819326795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of Cost-Aware Learning, where sampling different component functions of a finite-sum objective incurs different costs. The objective is to reach a target error while minimizing the total cost. First, we propose the Cost-Aware Stochastic Gradient Descent algorithm for convex functions, and derive its cost complexity to attain an error of $ε$. Furthermore, we establish a lower bound for this setting and provide a subset selection algorithm to further reduce the cost of training. We apply our theoretical insights to reinforcement learning with language models, where the computational cost of policy gradients varies with sequence length. To this end, we introduce Cost-Aware GRPO, an algorithm designed to reduce the cost of policy optimization while preserving performance. Empirical results on 1.5B and 8B LLMs demonstrate that our approach reduces the tokens used in policy optimization by up to about 30% while matching or exceeding baseline accuracy.
- Abstract(参考訳): 本研究では,有限サム目的の異なる成分関数をサンプリングするコスト認識学習の問題点について考察する。
目的は、総コストを最小化しながら、目標誤差に達することである。
まず,凸関数に対するコスト・アウェア・確率勾配 Descent アルゴリズムを提案し,そのコスト複雑性を導出して ε$ の誤差を得る。
さらに、この設定の下位境界を確立し、トレーニングコストをさらに削減するためのサブセット選択アルゴリズムを提供する。
理論的な洞察を言語モデルによる強化学習に適用し、政策勾配の計算コストはシーケンス長によって変化する。
この目的のために,性能を保ちながらポリシー最適化のコストを削減するアルゴリズムであるCost-Aware GRPOを導入する。
1.5B と 8B の LLM に対する実験結果から,提案手法は基準値の整合,整合性の向上を図りながら,政策最適化に使用されるトークンを最大30%削減することを示した。
関連論文リスト
- Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization [18.737087162461563]
テストタイムの計算スケーリングは、大規模言語モデルのパフォーマンスを向上させるための強力なレバーとなっている。
しかし、これらのテクニックを有限の推論予算の下で展開するには、現在のシステムがほとんど無視する決定が必要である。
我々はこれを制約付き最適化問題(平均計算予算の予測精度を最大化する)として定式化し、2段階のソルベ・テン・ラーンパイプラインで解いた。
論文 参考訳(メタデータ) (2026-04-16T10:39:22Z) - Cost-aware Stopping for Bayesian Optimization [46.95172329282389]
本稿では,様々な評価コストに適応し,チューニングが不要なベイズ最適化のためのコスト対応停止則を提案する。
我々は,最先端の取得関数と組み合わせた場合,停止規則によって得られる期待累積評価コストを拘束する理論的な保証を証明した。
論文 参考訳(メタデータ) (2025-07-16T17:54:14Z) - Cost-Aware Query Policies in Active Learning for Efficient Autonomous Robotic Exploration [0.0]
本稿では,動作コストを考慮しつつ,ガウス過程回帰のためのALアルゴリズムを解析する。
距離制約を持つ伝統的な不確実性計量は、軌道距離上のルート平均二乗誤差を最小化する。
論文 参考訳(メタデータ) (2024-10-31T18:35:03Z) - Time-Varying Convex Optimization with $O(n)$ Computational Complexity [0.0]
コスト関数が時間とともに変化する非拘束凸最適化の問題を考える。
提案アルゴリズムは,決定変数に対するコスト関数の1次微分のみを必要とする。
具体的には、提案アルゴリズムは、計算コストを1タイムステップあたり$(n3)$から$O(n)$に削減する。
論文 参考訳(メタデータ) (2024-10-19T06:45:05Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning [57.154674117714265]
本稿では,FQI-log を用いた準最適政策の学習に必要なサンプル数と,最適政策の累積コストについて述べる。
我々は,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
論文 参考訳(メタデータ) (2024-03-08T15:30:58Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning with General Function Approximation [67.66904892192794]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Target-based Surrogates for Stochastic Optimization [26.35752393302125]
我々は(おそらく)勾配を計算するのに費用がかかる関数の最小化を考える。
このような機能は、計算強化学習、模倣学習、および敵の訓練で広く用いられている。
我々のフレームワークは、最適化アルゴリズムを用いて、効率的に最小化できるサロゲートを構築することができる。
論文 参考訳(メタデータ) (2023-02-06T08:08:34Z) - Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based Algorithm [50.50545326342971]
複数の長期目標の非線形凹関数を最大化する問題を定式化する。
この問題に対してポリシー段階に基づくモデルフリーアルゴリズムを提案する。
提案アルゴリズムは,グローバルオプティマの$epsilon$以内に収束することが示されている。
論文 参考訳(メタデータ) (2021-05-28T22:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。