論文の概要: Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations
- arxiv url: http://arxiv.org/abs/2604.27093v1
- Date: Wed, 29 Apr 2026 18:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.757887
- Title: Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations
- Title(参考訳): 無駄だが安全か? マルチスレッド会話におけるユーザインテントの明確化によるユーザビリティ回復のベンチマーク
- Authors: Mingqian Zheng, Malia Morgan, Liwei Jiang, Carolyn Rose, Maarten Sap,
- Abstract要約: 我々は,LCMがユーザ意図の解釈を改訂し,有用性を回復できるかどうかを計測する初の対話型ベンチマークであるCarryOnBenchを紹介する。
ユーザ追跡シーケンスの異なる5,970の会話をシミュレートし,意図整合性と安全性の両面で14のモデルを評価する。
CarryOnBenchは、4-12ターンで1,866の異なる会話フローを生成し、合計で23,880のモデル応答を生成する。
- 参考スコア(独自算出の注目度): 32.23729177914094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current LLM safety alignment techniques improve model robustness against adversarial attacks, but overlook whether and how LLMs can recover helpfulness when benign users clarify their intent. We introduce CarryOnBench, the first interactive benchmark that measures whether LLMs can revise their interpretation of user intent and recover utility, while remaining safe through multi-turn conversations. Starting from 398 seemingly harmful queries with benign underlying intents, we simulate 5,970 conversations by varying user follow-up sequences, evaluating 14 models on both intent-aligned utility and safety. CarryOnBench yields 1,866 different conversation flows of 4--12 turns, totaling 23,880 model responses. We design Ben-Util, a checklist-based metric that evaluates how well each model response fulfills the user's benign information need using atomic items. At turn one, models fulfill only 10.5--37.6% of the user's benign information need. When the same query includes the benign intent upfront, models fulfill 25.1--72.1%, confirming that models withhold information due to intent misinterpretation, not limited knowledge. With benign clarifications in multi-turn conversations, 13 of 14 models approach or exceed this single-turn baseline, yet recovery cost varies across models. We identify three failure modes invisible to single-turn evaluations: utility lock-in, where a model rarely updates despite clarification; unsafe recovery, where a model updates at disproportionate safety cost; and repetitive recovery, where a model recycles prior responses rather than providing new information. Moreover, conversations converge to similar harmfulness levels regardless of how conservative the model starts. These findings expose a gap that single-turn evaluations miss -- whether a model is appropriately cautious or simply unresponsive to clarified user intent.
- Abstract(参考訳): 現在のLLM安全アライメント技術は、敵攻撃に対するモデルロバスト性を改善するが、良質なユーザがその意図を明確化する際に、LLMが役に立つかどうか、そしてどのようにして回復するかを見落としている。
私たちは,LLMがユーザ意図の解釈を改訂し,有用性を回復できるかどうかを,マルチターン会話を通じて安全を維持しながら測定する,初の対話型ベンチマークであるCarryOnBenchを紹介した。
398から、良質な意図を持つ有害なクエリとして、5,970の会話を様々なユーザ追跡シーケンスでシミュレートし、意図に整合したユーティリティと安全性の両方で14のモデルを評価する。
CarryOnBenchは、4-12ターンで1,866の異なる会話フローを生成し、合計で23,880のモデル応答を生成する。
チェックリストに基づくメトリクスであるBen-Utilを設計し、各モデル応答が、アトミックアイテムを使用して、ユーザの良識情報をどのように満たすかを評価する。
第一に、モデルはユーザーの良心的情報要求の10.5--37.6%しか満たさない。同じクエリが前もって良心的インテントを含む場合、モデルは25.1--72.1%を満たす。
マルチターン会話における良質な明確化により、14モデル中13モデルがこのシングルターンベースラインに近づいたり、超えたりするが、リカバリコストはモデルによって異なる。
単一ターン評価では見えない3つの障害モードを識別する: ユーティリティロックイン: 明確化にもかかわらずモデルが更新されることが稀なユーティリティロックイン; 安全でないリカバリ: 不均衡な安全コストでモデルが更新されること; 繰り返しリカバリ: モデルが新しい情報を提供するのではなく、事前応答をリサイクルすること。
さらに、モデルがどれだけ保守的であっても、会話は同様の有害度レベルに収束する。
これらの発見は、モデルが適切に慎重であるか、単にユーザの意図を明確にすることに対して反応しないかに関わらず、シングルターン評価が見逃すギャップを明らかにします。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check [32.82170313959032]
我々はAnswer-Then-Checkと呼ばれる新しい安全アライメント手法を導入する。
提案手法は,モデルが思考の質問に対して直接回答し,その安全性を批判的に評価することを可能にする。
わずか500のサンプルの小さなサブセットでのトレーニングは、完全なデータセットを使用するのに匹敵するパフォーマンスを達成できることに気付きました。
論文 参考訳(メタデータ) (2025-09-15T06:47:35Z) - FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning [12.467239356591238]
FalseRejectは、44の安全関連カテゴリにまたがる構造化された応答を伴う16kの一見有毒なクエリを含む包括的なリソースである。
本稿では,多種多様な複雑なプロンプトを生成するグラフインフォームド・逆多エージェントインタラクション・フレームワークを提案する。
FalseRejectによる教師付き微調整は、全体的な安全性や汎用言語能力を損なうことなく、不要な拒絶を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-12T20:45:25Z) - Rethinking LLM Uncertainty: A Multi-Agent Approach to Estimating Black-Box Model Uncertainty [47.95943057892318]
ブラックボックスLSMの不確実性の定量化は、信頼性の高い応答とスケーラブルな監視に不可欠である。
本研究では,不確実性推定にマルチエージェント相互作用を用いた新しい理論的基礎手法であるDiverseAgentEntropyを紹介する。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。