論文の概要: Online Conformal Prediction via Universal Portfolio Algorithms
- arxiv url: http://arxiv.org/abs/2602.03168v1
- Date: Tue, 03 Feb 2026 06:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.286056
- Title: Online Conformal Prediction via Universal Portfolio Algorithms
- Title(参考訳): ユニバーサルポートフォリオアルゴリズムによるオンラインコンフォーマル予測
- Authors: Tuo Liu, Edgar Dobriban, Francesco Orabona,
- Abstract要約: オンライン共形予測(OCP)は、任意の(おそらくは逆)データストリームに対して、長期にわたる1-$のカバレッジを達成する予測間隔を求める。
我々は,1-)$-pinball損失に基づく区間値OCPに対する一般的な後悔と隠蔽理論を開発した。
OCP のパラメータフリー手法である UP-OCP を提案する。
- 参考スコア(独自算出の注目度): 24.665304478713413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online conformal prediction (OCP) seeks prediction intervals that achieve long-run $1-α$ coverage for arbitrary (possibly adversarial) data streams, while remaining as informative as possible. Existing OCP methods often require manual learning-rate tuning to work well, and may also require algorithm-specific analyses. Here, we develop a general regret-to-coverage theory for interval-valued OCP based on the $(1-α)$-pinball loss. Our first contribution is to identify \emph{linearized regret} as a key notion, showing that controlling it implies coverage bounds for any online algorithm. This relies on a black-box reduction that depends only on the Fenchel conjugate of an upper bound on the linearized regret. Building on this theory, we propose UP-OCP, a parameter-free method for OCP, via a reduction to a two-asset portfolio selection problem, leveraging universal portfolio algorithms. We show strong finite-time bounds on the miscoverage of UP-OCP, even for polynomially growing predictions. Extensive experiments support that UP-OCP delivers consistently better size/coverage trade-offs than prior online conformal baselines.
- Abstract(参考訳): オンラインコンフォメーション予測(OCP)は、任意の(おそらくは敵対的な)データストリームに対する1-α$の長期カバレッジを達成する予測間隔を可能な限り情報的のまま求めている。
既存のOCP手法では、手動の学習率チューニングをうまく行う必要があり、アルゴリズム固有の分析も必要である。
ここでは、1-α$-pinball損失に基づく区間値OCPに対する一般的な後悔と隠蔽の理論を考案する。
私たちの最初の貢献は、オンラインアルゴリズムのカバレッジ境界を制御していることを示す重要な概念として \emph{linearized regret} を識別することです。
これは、線形化された後悔の上限のフェンシェル共役にのみ依存するブラックボックス還元に依存する。
この理論に基づいて,OCPのパラメータフリー手法であるUP-OCPを提案する。
UP-OCPの誤発見に対して,多項式的に増大する予測に対しても強い有限時間境界を示す。
UP-OCPは、以前のオンラインコンフォーメーションベースラインよりも、一貫してサイズ/カバレッジトレードオフを提供する。
関連論文リスト
- Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Provably Mitigating Corruption, Overoptimization, and Verbosity Simultaneously in Offline and Online RLHF/DPO Alignment [89.26250000307215]
人間からのフィードバックからの強化学習(RLHF)と直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる重要な手法である。
しかし、RLHFとDPOトレーニングの品質は、textittextbfCorrupted preference, reward textittextbfOveroptimization, and bias towards textittextbfVerbosityによって著しく損なわれている。
我々はRLHF-textbfCOVアルゴリズムとDPO-textbfCOVアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-07T02:32:47Z) - Relevance-Aware Thresholding in Online Conformal Prediction for Time Series [1.8744230606349503]
オンラインコンフォーマル予測(OCP)は、時間とともにデータ分散がシフトする問題に対処するオプションである。
本稿では,2値評価(内/外)をより広範な機能クラスに置き換えることにより,しきい値更新ステップの強化を提案する。
このアプローチは、急激な閾値変化を防止し、予測間隔を狭める可能性がある。
論文 参考訳(メタデータ) (2025-10-03T08:31:14Z) - Generalized Linear Bandits: Almost Optimal Regret with One-Pass Update [70.38810219913593]
非線形リンク関数を組み込んで古典線形モデルを拡張したコンテキスト型多武装バンディットフレームワークである一般化線形バンディット問題(GLB)について検討する。
GLBは現実世界のシナリオに広く適用できるが、その非線形性は計算効率と統計効率の両方を達成する上で大きな課題をもたらす。
本稿では,$mathcalO(1)$時間と1ラウンドあたりの空間複雑度をほぼ最適に再現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-16T02:24:21Z) - One Sample is Enough to Make Conformal Prediction Robust [53.78604391939934]
共形予測は, 1つのランダムな摂動入力に対して前方通過しても, ある程度の堅牢性が得られることを示す。
提案手法は,入力毎に多数のパス(例えば100回程度)を使用するSOTA法と比較して,平均セットサイズが小さいロバストな集合を返す。
論文 参考訳(メタデータ) (2025-06-19T19:14:25Z) - What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret [3.410112345043215]
これらの問題に対処するために,VC-PPO(Value-Calibrated PPO)を提案する。
The American Invitational Mathematics Examination (AIME) の実験は、VC-PPOがPPOのパフォーマンスを著しく向上させることを示している。
論文 参考訳(メタデータ) (2025-03-03T12:59:25Z) - Conformal prediction for multi-dimensional time series by ellipsoidal sets [9.44133696606093]
コンフォーマル予測(CP)は、分布のない、モデルに依存しない、理論的に健全であるため、不確実性定量化の一般的な方法である。
多変量応答に対して$textit Regions$をビルドする、$textttMultiDimS PCI$と呼ばれる逐次CP手法を開発した。
論文 参考訳(メタデータ) (2024-03-06T16:55:40Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - A novel Deep Learning approach for one-step Conformal Prediction
approximation [0.7646713951724009]
Conformal Prediction (CP) は、最小限の制約を与えられた最大エラー率を保証する汎用的なソリューションである。
本稿では,従来の2ステップCPアプローチを1ステップで近似する新しい共形損失関数を提案する。
論文 参考訳(メタデータ) (2022-07-25T17:46:09Z) - Under-Approximating Expected Total Rewards in POMDPs [68.8204255655161]
我々は、部分的に観測可能なマルコフ決定プロセス(POMDP)において、ゴール状態に達するための最適な総報酬を考える。
我々は、MILP(mixed-integer linear programming)を用いて、そのような最小限の確率シフトを見つけ、実験により、我々の手法がかなりうまく拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-01-21T16:43:03Z) - Can Q-Learning be Improved with Advice? [27.24260290748049]
本稿では,マルコフ決定過程(MDP)のオンライン学習において,後悔に対する最悪の下限を回避できるかどうかを論じる。
最適$Q$-値関数の予測が蒸留と呼ばれる合理的に弱い条件を満たす場合、状態-作用対の集合を、その予測が極端に不正確な状態-作用対の集合に置き換えることで、後悔境界を改善することができることを示す。
私たちの研究は、キャッシュやスケジューリングといった単純なオンライン問題に重点を置いていた予測を伴うアルゴリズムに関する最近の研究を、強化学習のより複雑で一般的な問題へと拡張しています。
論文 参考訳(メタデータ) (2021-10-25T15:44:20Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。