論文の概要: MultiRisk: Multiple Risk Control via Iterative Score Thresholding
- arxiv url: http://arxiv.org/abs/2512.24587v1
- Date: Wed, 31 Dec 2025 03:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.549271
- Title: MultiRisk: Multiple Risk Control via Iterative Score Thresholding
- Title(参考訳): MultiRisk: 反復スコアThresholdingによる複数リスクコントロール
- Authors: Sunay Joshi, Yan Sun, Hamed Hassani, Edgar Dobriban,
- Abstract要約: 我々は、ユーザ定義の優先順位で複数のリスク制約を強制する問題を定式化する。
このシーケンシャルな構造を利用する2つの効率的な動的プログラミングアルゴリズムを導入する。
提案アルゴリズムは,個々のリスクを目標レベルに近いレベルで制御できることを示す。
- 参考スコア(独自算出の注目度): 40.193623095603265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As generative AI systems are increasingly deployed in real-world applications, regulating multiple dimensions of model behavior has become essential. We focus on test-time filtering: a lightweight mechanism for behavior control that compares performance scores to estimated thresholds, and modifies outputs when these bounds are violated. We formalize the problem of enforcing multiple risk constraints with user-defined priorities, and introduce two efficient dynamic programming algorithms that leverage this sequential structure. The first, MULTIRISK-BASE, provides a direct finite-sample procedure for selecting thresholds, while the second, MULTIRISK, leverages data exchangeability to guarantee simultaneous control of the risks. Under mild assumptions, we show that MULTIRISK achieves nearly tight control of all constraint risks. The analysis requires an intricate iterative argument, upper bounding the risks by introducing several forms of intermediate symmetrized risk functions, and carefully lower bounding the risks by recursively counting jumps in symmetrized risk functions between appropriate risk levels. We evaluate our framework on a three-constraint Large Language Model alignment task using the PKU-SafeRLHF dataset, where the goal is to maximize helpfulness subject to multiple safety constraints, and where scores are generated by a Large Language Model judge and a perplexity filter. Our experimental results show that our algorithm can control each individual risk at close to the target level.
- Abstract(参考訳): 生成型AIシステムが現実世界のアプリケーションにますます導入されるにつれて、モデル行動の複数の次元を規制することが不可欠になっている。
テスト時間フィルタリング(test-time filtering)は、性能スコアと推定しきい値を比較し、これらのバウンダリが違反した場合に出力を変更する行動制御のための軽量なメカニズムである。
ユーザ定義の優先度で複数のリスク制約を強制する問題を定式化し、このシーケンシャルな構造を利用する2つの効率的な動的プログラミングアルゴリズムを導入する。
第1のMultiRISK-BASEは、閾値を選択するための直接有限サンプル手順を提供し、第2のMultiRISKは、データ交換性を活用してリスクの同時制御を保証する。
軽度の仮定では、MultiRISKは全ての制約リスクをほぼ厳格に制御できることが示される。
この分析には複雑な反復的議論が必要であり、いくつかの中間対称性リスク関数を導入することによってリスクの上限を高くし、適切なリスクレベル間の対称性リスク関数のジャンプを反復的にカウントすることでリスクの境界を慎重に下げる必要がある。
我々は,PKU-SafeRLHFデータセットを用いた3つの制約付き大規模言語モデルアライメントタスクにおけるフレームワークの評価を行った。
実験結果から,本アルゴリズムは目標レベルに近い個々のリスクを制御可能であることが示された。
関連論文リスト
- Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment [49.2305683068875]
本稿では,リスク認識を政策最適化プロセスに組み込んだ新しいアライメント手法であるリスク対応ステップワイドアライメント(RSA)を提案する。
RSAは、過剰なモデルシフトによって引き起こされるリスクを基準方針から緩和し、低確率で高影響の有害な振る舞いを明示的に抑制する。
実験により, 本手法は高い安全性を確保しつつ, 高い安全性を達成できることが確認された。
論文 参考訳(メタデータ) (2025-12-30T14:38:02Z) - RADAR: A Risk-Aware Dynamic Multi-Agent Framework for LLM Safety Evaluation via Role-Specialized Collaboration [81.38705556267917]
大規模言語モデル(LLM)の既存の安全性評価手法は、固有の制約に悩まされている。
リスク概念空間を再構築する理論的枠組みを導入する。
マルチエージェント協調評価フレームワークRADARを提案する。
論文 参考訳(メタデータ) (2025-09-28T09:35:32Z) - Safety-Aware Reinforcement Learning for Control via Risk-Sensitive Action-Value Iteration and Quantile Regression [2.592761128203891]
量子ベースのアクションバリュー反復法は、期待されるコスト対ゴーの分布を学習することで、このバイアスを低減する。
既存の手法では、コスト関数の組み合わせによる複雑なニューラルネットワークアーキテクチャや手動のトレードオフが必要になることが多い。
本研究では、複雑なアーキテクチャを使わずに安全性を確保するために、条件付き値-アット・リスクを組み込んだリスク正規化量子化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-08T00:22:00Z) - Conditional Conformal Risk Adaptation [9.559062601251464]
セグメンテーションタスクの条件付きリスク制御を大幅に改善する適応予測セットを作成するための新しいスコア関数を開発する。
画素単位での包含推定の信頼性を高めるための特殊確率校正フレームワークを提案する。
ポリープセグメンテーション実験により, 3つの手法が有意な限界リスク制御を提供し, より一貫した条件リスク制御を実現することを示した。
論文 参考訳(メタデータ) (2025-04-10T10:01:06Z) - Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language Models [46.56041622514975]
リスク管理とアセスメントのための2段階のフレームワークであるTRONを紹介する。
TRONは、2つのユーザ特定リスクレベルに制限された所望のエラー率を達成する。
重複予測セットは適応性を維持しつつ、異なるリスクレベルのリスク評価に対してより効率的で安定である。
論文 参考訳(メタデータ) (2024-10-10T17:50:42Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Sample-Based Bounds for Coherent Risk Measures: Applications to Policy
Synthesis and Verification [32.9142708692264]
本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。
まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。
第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
論文 参考訳(メタデータ) (2022-04-21T01:06:10Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。