論文の概要: STEER: Inference-Time Risk Control via Constrained Quality-Diversity Search
- arxiv url: http://arxiv.org/abs/2602.02862v1
- Date: Mon, 02 Feb 2026 22:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.111925
- Title: STEER: Inference-Time Risk Control via Constrained Quality-Diversity Search
- Title(参考訳): STEER:制約付き品質多様性探索による予測時間リスク制御
- Authors: Eric Yang, Jong Ha Lee, Jonathan Amar, Elissa Ye, Yugang Jia,
- Abstract要約: 平均的正確性のために訓練された大規模言語モデル(LLM)は、しばしばモード崩壊を示し、複数の応答が妥当なタスクに対して狭い決定行動をもたらす。
我々は、この曖昧な制御を再導入するトレーニング不要のフレームワークであるSTEERを提案する。
2つの臨床トリアージベンチマークにおいて、STEERは温度に基づくサンプリングと静的なペルソナアンサンブルと比較して幅広い行動カバレッジを達成する。
- 参考スコア(独自算出の注目度): 3.587563440886175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) trained for average correctness often exhibit mode collapse, producing narrow decision behaviors on tasks where multiple responses may be reasonable. This limitation is particularly problematic in ordinal decision settings such as clinical triage, where standard alignment removes the ability to trade off specificity and sensitivity (the ROC operating point) based on contextual constraints. We propose STEER (Steerable Tuning via Evolutionary Ensemble Refinement), a training-free framework that reintroduces this tunable control. STEER constructs a population of natural-language personas through an offline, constrained quality-diversity search that promotes behavioral coverage while enforcing minimum safety, reasoning, and stability thresholds. At inference time, STEER exposes a single, interpretable control parameter that maps a user-specified risk percentile to a selected persona, yielding a monotonic adjustment of decision conservativeness. On two clinical triage benchmarks, STEER achieves broader behavioral coverage compared to temperature-based sampling and static persona ensembles. Compared to a representative post-training method, STEER maintains substantially higher accuracy on unambiguous urgent cases while providing comparable control over ambiguous decisions. These results demonstrate STEER as a safety-preserving paradigm for risk control, capable of steering behavior without compromising domain competence.
- Abstract(参考訳): 平均的正確性のために訓練された大規模言語モデル(LLM)は、しばしばモード崩壊を示し、複数の応答が妥当なタスクに対して狭い決定行動をもたらす。
この制限は、臨床トリアージのような日常的な決定設定において特に問題であり、標準的なアライメントは文脈的制約に基づいて、特異性と感度(ROC操作点)をトレードオフする能力を取り除く。
本稿では,STEER(Steerable Tuning via Evolutionary Ensemble Refinement)を提案する。
STEERは、最小限の安全性、推論、安定性の閾値を強制しながら、行動カバレッジを促進する、オフラインで制約付き品質多様性探索を通じて、自然言語ペルソナの集団を構築する。
推測時、STEERは、ユーザが特定したリスクパーセンタイルを選択したペルソナにマッピングする単一の解釈可能な制御パラメータを公開し、決定保守性の単調な調整を生成する。
2つの臨床トリアージベンチマークにおいて、STEERは温度に基づくサンプリングと静的なペルソナアンサンブルと比較して幅広い行動カバレッジを達成する。
代表的なポストトレーニング手法と比較して、STEERは曖昧な緊急ケースに対してかなり高い精度を維持しながら、曖昧な決定に対して同等の制御を提供する。
これらの結果から、STEERはリスク制御のための安全保全パラダイムであり、ドメイン能力の損なうことなく、動作を操れることを示した。
関連論文リスト
- SAFER: Risk-Constrained Sample-then-Filter in Large Language Models [38.97678256807034]
本稿では,無意識サンプリングと共形フィルタリングを組み合わせた2段階リスク制御フレームワークを提案する。
その結果,SAFERはタスク固有の基準やキャリブレーションテストのスプリット比と互換性があることが判明した。
論文 参考訳(メタデータ) (2025-10-11T12:12:41Z) - PASS: Probabilistic Agentic Supernet Sampling for Interpretable and Adaptive Chest X-Ray Reasoning [31.42306351491176]
PASS(Probabilistic Agentic Supernet Smpling)は、Chest X-Ray(CXR)推論の文脈でこれらの課題に対処する最初のマルチモーダルフレームワークである。
PASSは、マルチツールグラフ上でエージェントを適応的にサンプリングし、解釈可能な確率でアノテートされた決定経路を生成する。
論文 参考訳(メタデータ) (2025-08-14T10:03:47Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Conditional Conformal Risk Adaptation [9.559062601251464]
セグメンテーションタスクの条件付きリスク制御を大幅に改善する適応予測セットを作成するための新しいスコア関数を開発する。
画素単位での包含推定の信頼性を高めるための特殊確率校正フレームワークを提案する。
ポリープセグメンテーション実験により, 3つの手法が有意な限界リスク制御を提供し, より一貫した条件リスク制御を実現することを示した。
論文 参考訳(メタデータ) (2025-04-10T10:01:06Z) - Automatically Adaptive Conformal Risk Control [49.95190019041905]
本稿では,テストサンプルの難易度に適応して,統計的リスクの近似的条件制御を実現する手法を提案する。
我々のフレームワークは、ユーザが提供するコンディショニングイベントに基づく従来のコンディショニングリスク制御を超えて、コンディショニングに適した関数クラスのアルゴリズム的、データ駆動決定を行う。
論文 参考訳(メタデータ) (2024-06-25T08:29:32Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。