論文の概要: Two-stage Risk Control with Application to Ranked Retrieval
- arxiv url: http://arxiv.org/abs/2404.17769v3
- Date: Sat, 01 Feb 2025 11:49:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:05:48.253082
- Title: Two-stage Risk Control with Application to Ranked Retrieval
- Title(参考訳): ランク付き検索への適用による二段階リスク制御
- Authors: Yunpeng Xu, Mufang Ying, Wenge Guo, Zhi Wei,
- Abstract要約: 提案手法は,Learning-then-test (LTT) と共形リスク制御 (CRC) フレームワークに基づく2段階リスク制御手法である。
本稿では,提案手法の理論的保証と,ランク付けされた検索タスクに適した新規な損失関数の設計を行う。
提案手法の有効性は,大規模で広く利用されている2つのデータセットの実験を通して検証する。
- 参考スコア(独自算出の注目度): 1.8481458455172357
- License:
- Abstract: Practical machine learning systems often operate in multiple sequential stages, as seen in ranking and recommendation systems, which typically include a retrieval phase followed by a ranking phase. Effectively assessing prediction uncertainty and ensuring effective risk control in such systems pose significant challenges due to their inherent complexity. To address these challenges, we developed two-stage risk control methods based on the recently proposed learn-then-test (LTT) and conformal risk control (CRC) frameworks. Unlike the methods in prior work that address multiple risks, our approach leverages the sequential nature of the problem, resulting in reduced computational burden. We provide theoretical guarantees for our proposed methods and design novel loss functions tailored for ranked retrieval tasks. The effectiveness of our approach is validated through experiments on two large-scale, widely-used datasets: MSLR-Web and Yahoo LTRC.
- Abstract(参考訳): 現実的な機械学習システムは、ランキングシステムやレコメンデーションシステムのように、複数のシーケンシャルな段階で運用されることが多い。
このようなシステムにおいて、予測の不確実性を効果的に評価し、効果的なリスク制御を確保することは、その固有の複雑さのために重大な課題となる。
これらの課題に対処するため,最近提案されたLearning-then-test(LTT)とCRC(Conformal Risk Control)フレームワークに基づく2段階リスク制御手法を開発した。
複数のリスクに対処する先行作業の手法とは異なり、我々の手法は問題のシーケンシャルな性質を活用し、計算負荷を低減させる。
本稿では,提案手法の理論的保証と,ランク付けされた検索タスクに適した新規な損失関数の設計を行う。
提案手法の有効性は,MSLR-Web と Yahoo LTRC の2つの大規模かつ広く利用されているデータセットを用いて検証した。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Conformal Risk Control for Ordinal Classification [2.0189665663352936]
我々は,多くの実問題に適用可能な順序分類タスクの予測における共形リスクの制御を模索する。
そこで我々は,2種類の損失関数を特殊に設計し,各ケースの予測セットを決定するアルゴリズムを開発した。
提案手法の有効性を実証し、3つの異なるデータセットにおける2種類のリスクの違いを分析した。
論文 参考訳(メタデータ) (2024-05-01T09:55:31Z) - Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for
Robotics Control with Action Constraints [9.293472255463454]
本研究では,行動制約付き強化学習(RL)アルゴリズムの評価のためのベンチマークを提案する。
複数のロボット制御環境にまたがる既存のアルゴリズムとその新しい変種を評価する。
論文 参考訳(メタデータ) (2023-04-18T05:45:09Z) - Learning Disturbances Online for Risk-Aware Control: Risk-Aware Flight
with Less Than One Minute of Data [33.7789991023177]
安全クリティカルなリスク認識制御の最近の進歩は、システムが直面する可能性のある障害に関するアプリオリの知識に基づいている。
本稿では,リスク認識型オンラインコンテキストにおいて,これらの障害を効果的に学習する手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T21:40:23Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - TOPS: Transition-based VOlatility-controlled Policy Search and its
Global Convergence [9.607937067646617]
本稿では,遷移型ボラティリティ制御ポリシサーチ(TOPS)を提案する。
このアルゴリズムは、連続した軌道ではなく(おそらく非連続的な)遷移から学習することで、リスク-逆問題の解法である。
理論的解析と実験結果の両方が、リスク・逆ポリシー探索手法の最先端レベルを示している。
論文 参考訳(メタデータ) (2022-01-24T18:29:23Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。