論文の概要: Two-stage Conformal Risk Control with Application to Ranked Retrieval
- arxiv url: http://arxiv.org/abs/2404.17769v2
- Date: Sat, 02 Nov 2024 08:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:26:34.100350
- Title: Two-stage Conformal Risk Control with Application to Ranked Retrieval
- Title(参考訳): 2段階コンフォーマルリスク制御とランク付き検索への応用
- Authors: Yunpeng Xu, Mufang Ying, Wenge Guo, Zhi Wei,
- Abstract要約: 2段階のランク付け検索は、機械学習システムにとって重要な課題である。
両段階の閾値を共同で同定し,各段階のリスクを制御するための統合的アプローチを提案する。
提案アルゴリズムは,全ての可能なしきい値に対して,重み付けされた予測セットサイズの組み合わせをさらに最適化することにより,より効率的な予測セットを実現する。
- 参考スコア(独自算出の注目度): 1.8481458455172357
- License:
- Abstract: Many practical machine learning systems, such as ranking and recommendation systems, consist of two concatenated stages: retrieval and ranking. These systems present significant challenges in accurately assessing and managing the uncertainty inherent in their predictions. To address these challenges, we extend the recently developed framework of conformal risk control, originally designed for single-stage problems, to accommodate the more complex two-stage setup. We first demonstrate that a straightforward application of conformal risk control, treating each stage independently, may fail to maintain risk at their pre-specified levels. Therefore, we propose an integrated approach that considers both stages simultaneously, devising algorithms to control the risk of each stage by jointly identifying thresholds for both stages. Our algorithm further optimizes for a weighted combination of prediction set sizes across all feasible thresholds, resulting in more effective prediction sets. Finally, we apply the proposed method to the critical task of two-stage ranked retrieval. We validate the efficacy of our method through extensive experiments on two large-scale public datasets, MSLR-WEB and MS MARCO, commonly used for ranked retrieval tasks.
- Abstract(参考訳): ランキングシステムやレコメンデーションシステムなど多くの実践的な機械学習システムは、検索とランキングという2つの統合段階から構成されている。
これらのシステムは、予測に固有の不確かさを正確に評価し、管理する上で重要な課題となる。
これらの課題に対処するため、我々は、より複雑な2段階設定に対応するために、もともとシングルステージ問題のために設計された共形リスク制御のフレームワークを拡張した。
まず、各段階を個別に扱う共形リスクコントロールの簡単な適用は、事前に特定されたレベルにおいてリスクを維持できない可能性があることを実証する。
そこで本稿では,両ステージを同時に検討し,両ステージのしきい値を共同同定することで,各ステージのリスクを制御するアルゴリズムを考案する。
提案アルゴリズムは,全ての可能なしきい値に対して,重み付けされた予測セットサイズの組み合わせをさらに最適化し,より効率的な予測セットを実現する。
最後に,提案手法を2段階のランク付け検索のクリティカルタスクに適用する。
提案手法の有効性は,MSLR-WEBとMS MARCOの2つの大規模公開データセットを用いた広範囲な実験により検証した。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Conformal Risk Control for Ordinal Classification [2.0189665663352936]
我々は,多くの実問題に適用可能な順序分類タスクの予測における共形リスクの制御を模索する。
そこで我々は,2種類の損失関数を特殊に設計し,各ケースの予測セットを決定するアルゴリズムを開発した。
提案手法の有効性を実証し、3つの異なるデータセットにおける2種類のリスクの違いを分析した。
論文 参考訳(メタデータ) (2024-05-01T09:55:31Z) - Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints [9.293472255463454]
本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
論文 参考訳(メタデータ) (2023-04-18T05:45:09Z) - Learning Disturbances Online for Risk-Aware Control: Risk-Aware Flight
with Less Than One Minute of Data [33.7789991023177]
安全クリティカルなリスク認識制御の最近の進歩は、システムが直面する可能性のある障害に関するアプリオリの知識に基づいている。
本稿では,リスク認識型オンラインコンテキストにおいて,これらの障害を効果的に学習する手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T21:40:23Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence [9.607937067646617]
本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。
このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。
理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
論文 参考訳(メタデータ) (2022-01-24T18:29:23Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。