論文の概要: When Choices Become Risks: Safety Failures of Large Language Models under Multiple-Choice Constraints
- arxiv url: http://arxiv.org/abs/2604.16916v1
- Date: Sat, 18 Apr 2026 08:49:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.234219
- Title: When Choices Become Risks: Safety Failures of Large Language Models under Multiple-Choice Constraints
- Title(参考訳): 選択がリスクになるとき:複数項目制約下での大規模言語モデルの安全性の低下
- Authors: Yuheng Chen, Zhiyu Wu, Bowen Cheng, Tetsuro Takahashi,
- Abstract要約: 大規模言語モデル(LLM)における安全性のアライメントは、主にオープン・エンド・ジェネレーションの下で評価される。
強制選択の制約が政策違反の反応を急激に増加させることを示す。
その結果,現在の安全評価は構造化タスク設定のリスクを著しく過小評価していることがわかった。
- 参考スコア(独自算出の注目度): 15.533348064153827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment in large language models (LLMs) is primarily evaluated under open-ended generation, where models can mitigate risk by refusing to respond. In contrast, many real-world applications place LLMs in structured decision-making tasks, such as multiple-choice questions (MCQs), where abstention is discouraged or unavailable. We identify a systematic failure mode in this setting: reformulating harmful requests as forced-choice MCQs, where all options are unsafe, can systematically bypass refusal behavior, even in models that consistently reject equivalent open-ended prompts. Across 14 proprietary and open-source models, we show that forced-choice constraints sharply increase policy-violating responses. Notably, for human-authored MCQs, violation rates follow an inverted U-shaped trend with respect to structural constraint strength, peaking under intermediate task specifications, whereas MCQs generated by high-capability models yield near-saturation violation rates across constraints and exhibit strong cross-model transferability. Our findings reveal that current safety evaluations substantially underestimate risks in structured task settings and highlight constrained decision-making as a critical and underexplored surface for alignment failures.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性アライメントは、主にオープン・エンド・ジェネレーションの下で評価され、モデルが応答を拒否することでリスクを軽減することができる。
対照的に、現実の多くのアプリケーションは、マルチチョイス質問(MCQ)のような構造化された意思決定タスクにLSMを配置する。
有害な要求を強制選択MCQとして再構成し、すべてのオプションが安全でない場合、同じオープンエンドプロンプトを一貫して拒否するモデルであっても、システム的に拒否動作を回避できる。
14のプロプライエタリおよびオープンソースモデルに対して,強制選択制約がポリシー違反の応答を著しく増加させることを示す。
特に、人為的なMCQでは、構造的制約強度に関して反転U字型傾向が続き、中間的タスク仕様の下でピークとなるのに対して、高機能モデルによって生成されたMCQは制約を越えてほぼ飽和な違反率となり、強いクロスモデル転送性を示す。
その結果,現状の安全評価は構造的タスク設定のリスクを著しく過小評価し,アライメント障害の重要かつ過小評価された表面として制約付き意思決定を強調していることがわかった。
関連論文リスト
- YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models [36.084240131323824]
我々はYuFeng-XGuardについて紹介する。YuFeng-XGuardは大規模言語モデル(LLM)のための論理中心ガードレールモデルである。
YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや信頼性スコアを含む構造化されたリスク予測を生成する。
リスク認識を政策執行から切り離す動的政策機構を導入し、モデルの再訓練なしに安全政策を調整できるようにした。
論文 参考訳(メタデータ) (2026-01-22T02:23:18Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Answer, Refuse, or Guess? Investigating Risk-Aware Decision Making in Language Models [63.559461750135334]
言語モデル(LM)は、目標を達成するために自律的に行動可能なエージェントを構築するために、ますます使われています。
本研究では,人為的リスク構造を体系的に変化させる評価枠組みを用いて,この「回答または延期」問題を考察する。
回答や判断に要する独立したスキルを分離した簡易なスキル分解手法が,LMの意思決定ポリシーを一貫して改善できることがわかった。
論文 参考訳(メタデータ) (2025-03-03T09:16:26Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Prompt Risk Control: A Rigorous Framework for Responsible Deployment of Large Language Models [14.457388258269697]
本稿では,情報的リスク対策の家族に対する厳密な上限に基づくプロンプト選択のためのフレームワークであるPrompt Risk Controlを提案する。
最悪の応答を測定する量を含む、さまざまなメトリクスセットのバウンダリを生成する方法を提供しています。
オープンエンドチャット、医療質問の要約、コード生成といったアプリケーションの実験では、このようなフレームワークが責任あるデプロイメントを促進する方法が強調されている。
論文 参考訳(メタデータ) (2023-11-22T18:50:47Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。