論文の概要: OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
- arxiv url: http://arxiv.org/abs/2509.26495v2
- Date: Fri, 03 Oct 2025 12:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 12:05:48.060399
- Title: OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
- Title(参考訳): OffTopicEval: 大きな言語モデルが間違ったチャットに入るとき、ほぼ常に!
- Authors: Jingdi Lei, Varun Gumma, Rishabh Bhardwaj, Seok Min Lim, Chuan Li, Amir Zadeh, Soujanya Poria,
- Abstract要約: 大規模言語モデル(LLM)の安全性は,大規模なデプロイメントを実現する上で,最も重要な課題のひとつだ。
ユーザクエリを適切に受け入れたり拒否したりできる LLM の機能として定義された,運用上の安全性を導入します。
我々の評価によると、性能はモデルによって異なるが、それらすべてが非常に運用上安全ではない。
- 参考スコア(独自算出の注目度): 37.01773368481712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) safety is one of the most pressing challenges for enabling wide-scale deployment. While most studies and global discussions focus on generic harms, such as models assisting users in harming themselves or others, enterprises face a more fundamental concern: whether LLM-based agents are safe for their intended use case. To address this, we introduce operational safety, defined as an LLM's ability to appropriately accept or refuse user queries when tasked with a specific purpose. We further propose OffTopicEval, an evaluation suite and benchmark for measuring operational safety both in general and within specific agentic use cases. Our evaluations on six model families comprising 20 open-weight LLMs reveal that while performance varies across models, all of them remain highly operationally unsafe. Even the strongest models - Qwen-3 (235B) with 77.77% and Mistral (24B) with 79.96% - fall far short of reliable operational safety, while GPT models plateau in the 62-73% range, Phi achieves only mid-level scores (48-70%), and Gemma and Llama-3 collapse to 39.53% and 23.84%, respectively. While operational safety is a core model alignment issue, to suppress these failures, we propose prompt-based steering methods: query grounding (Q-ground) and system-prompt grounding (P-ground), which substantially improve OOD refusal. Q-ground provides consistent gains of up to 23%, while P-ground delivers even larger boosts, raising Llama-3.3 (70B) by 41% and Qwen-3 (30B) by 27%. These results highlight both the urgent need for operational safety interventions and the promise of prompt-based steering as a first step toward more reliable LLM-based agents.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性は,大規模なデプロイメントを実現する上で,最も重要な課題のひとつだ。
ほとんどの研究やグローバルな議論は、ユーザーが自分自身を傷つけることを支援するモデルなど一般的な害に焦点を当てているが、企業はより根本的な懸念に直面している。
この問題に対処するために,特定の目的に課されたユーザクエリを適切に受け入れたり拒否したりできるLLMの機能として定義された運用上の安全性を導入する。
また,OffTopicEvalは,一般用途と特定のエージェントユースケースの両方において,運用上の安全性を評価するための評価スイートとベンチマークである。
オープンウェイトLLMを20個構成した6種類のモデル群について評価した結果,性能はモデルによって異なるが,いずれも運用上は安全ではないことがわかった。
最強のモデルであるQwen-3 (235B) は77.77%、Mistral (24B) は79.96%、GPTは62-73%、Phiは48-70%、GemmaとLlama-3は39.53%、Llama-3は23.84%である。
運用安全性はコアモデルアライメントの問題であるが,これらの障害を抑制するために,クエリグラウンド(Q-ground)とシステムプロンプトグラウンド(P-ground)というプロンプトベースのステアリング手法を提案する。
Qグラウンドは最大で23%上昇し、Pグラウンドはさらに大きく、Llama-3.3 (70B) は41%上昇し、Qwen-3 (30B) は27%上昇した。
これらの結果は、より信頼性の高いLSMエージェントに向けた第一歩として、運用上の安全介入の緊急の必要性と、プロンプトベースのステアリングの約束の両方を浮き彫りにした。
関連論文リスト
- MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - SafeLawBench: Towards Safe Alignment of Large Language Models [18.035407356604832]
大きな言語モデル(LLM)の安全性を評価するための明確な基準が欠如している。
SafeLawBenchは、法的基準に基づいて、安全リスクを3つのレベルに分類する。
24,860のマルチチョイス質問と1,106のオープンドメイン質問回答(QA)タスクで構成されている。
論文 参考訳(メタデータ) (2025-06-07T03:09:59Z) - Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [17.5700128005813]
大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文 参考訳(メタデータ) (2025-05-24T21:37:10Z) - Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback [34.01716144973483]
汎用AIアシスタント構築にはMLLM(Multimodal large language model)が不可欠である。
MLLMの安全アライメントをどうやって確保すれば、望ましくない行動を防ぐことができるのか?
本研究では,安全なRLHF-Vを初めて探求する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Responsible AI in Construction Safety: Systematic Evaluation of Large Language Models and Prompt Engineering [9.559203170987598]
建設は依然として最も危険な分野の1つである。
AIの最近の進歩、特にLarge Language Models (LLMs)は、職場の安全性を高めるための有望な機会を提供する。
本研究は、認定安全専門家委員会(BCSP)が実施する3つの基準試験において、広く使用されている2つのLCM(GPT-3.5とGPT-4o)の性能を評価する。
論文 参考訳(メタデータ) (2024-11-13T04:06:09Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。