論文の概要: Probabilistic Performance Guarantees for Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.02098v1
- Date: Mon, 02 Feb 2026 13:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.173953
- Title: Probabilistic Performance Guarantees for Multi-Task Reinforcement Learning
- Title(参考訳): マルチタスク強化学習のための確率的性能保証
- Authors: Yannik Schnitzer, Mathias Jackermeier, Alessandro Abate, David Parker,
- Abstract要約: マルチタスク強化学習は、複数のタスクを実行できるポリシーを訓練する。
既存のアプローチが正式なパフォーマンスを保証することはめったにない。
本稿では、トレーニング中に見えないタスクに対するマルチタスクポリシーの性能に関する高信頼度保証を計算するためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 52.91674663354141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-task reinforcement learning trains generalist policies that can execute multiple tasks. While recent years have seen significant progress, existing approaches rarely provide formal performance guarantees, which are indispensable when deploying policies in safety-critical settings. We present an approach for computing high-confidence guarantees on the performance of a multi-task policy on tasks not seen during training. Concretely, we introduce a new generalisation bound that composes (i) per-task lower confidence bounds from finitely many rollouts with (ii) task-level generalisation from finitely many sampled tasks, yielding a high-confidence guarantee for new tasks drawn from the same arbitrary and unknown distribution. Across state-of-the-art multi-task RL methods, we show that the guarantees are theoretically sound and informative at realistic sample sizes.
- Abstract(参考訳): マルチタスク強化学習は、複数のタスクを実行できる汎用的なポリシーを訓練する。
近年は大きな進歩を遂げているが、既存のアプローチは、安全に重要な設定でポリシーをデプロイする上で必須の、正式なパフォーマンス保証を提供することは滅多にない。
本稿では、トレーニング中に見えないタスクに対するマルチタスクポリシーの性能に関する高信頼度保証を計算するためのアプローチを提案する。
具体的には、構成する新しい一般化バウンダリを導入する。
(i) 有限個のロールアウトからのタスク毎の低信頼境界
(2)有限個のサンプリングされたタスクからタスクレベルの一般化を行い、同じ任意かつ未知の分布から引き出された新しいタスクに対して高い信頼度を保証する。
現状のマルチタスクRL法全体では, 保証は理論上は健全で, 現実的なサンプルサイズでは有益であることを示す。
関連論文リスト
- Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - Learning Policy Committees for Effective Personalization in MDPs with Diverse Tasks [40.2989900672992]
本稿では,実行中に発生するタスクの確率の高い,少なくとも1つの準最適政策を含む政策委員会を学習するための新しいアプローチを提案する。
MuJoCo と Meta-World に関する実験により,提案手法は,訓練,一般化,少数ショット学習において,最先端のマルチタスク,メタ,タスククラスタリングベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-26T22:45:25Z) - Active Fine-Tuning of Multi-Task Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。