論文の概要: Cooking Up Risks: Benchmarking and Reducing Food Safety Risks in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.01444v1
- Date: Wed, 01 Apr 2026 22:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.088185
- Title: Cooking Up Risks: Benchmarking and Reducing Food Safety Risks in Large Language Models
- Title(参考訳): リスクの調理:大規模言語モデルにおける食品安全リスクのベンチマークと削減
- Authors: Weidi Luo, Xiaofei Wen, Tenghao Huang, Hongyi Wang, Zhen Xiang, Chaowei Xiao, Kristina Gligorić, Muhao Chen,
- Abstract要約: 大規模言語モデル(LLM)は、食糧準備や健康関連ガイダンスなど、日常的な業務のためにますます多くデプロイされている。
これらのリスクにもかかわらず、現在のLLMと安全ガードレールは、ドメイン固有の食品の危険に合わせた厳格なアライメントを欠いている。
FDAガイドラインに基づく3,339のクエリからなる最初の総合的なベンチマークであるFoodGuardBenchを紹介する。
- 参考スコア(独自算出の注目度): 63.74244630162375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed for everyday tasks, including food preparation and health-related guidance. However, food safety remains a high-stakes domain where inaccurate or misleading information can cause severe real-world harm. Despite these risks, current LLMs and safety guardrails lack rigorous alignment tailored to domain-specific food hazards. To address this gap, we introduce FoodGuardBench, the first comprehensive benchmark comprising 3,339 queries grounded in FDA guidelines, designed to evaluate the safety and robustness of LLMs. By constructing a taxonomy of food safety principles and employing representative jailbreak attacks (e.g., AutoDAN and PAP), we systematically evaluate existing LLMs and guardrails. Our evaluation results reveal three critical vulnerabilities: First, current LLMs exhibit sparse safety alignment in the food-related domain, easily succumbing to a few canonical jailbreak strategies. Second, when compromised, LLMs frequently generate actionable yet harmful instructions, inadvertently empowering malicious actors and posing tangible risks. Third, existing LLM-based guardrails systematically overlook these domain-specific threats, failing to detect a substantial volume of malicious inputs. To mitigate these vulnerabilities, we introduce FoodGuard-4B, a specialized guardrail model fine-tuned on our datasets to safeguard LLMs within food-related domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、食糧準備や健康関連ガイダンスなど、日常的な業務のためにますます多くデプロイされている。
しかし、食品の安全性は、不正確な情報や誤解を招く情報が現実世界に深刻な害をもたらす可能性のある、高い領域のままである。
これらのリスクにもかかわらず、現在のLLMと安全ガードレールは、ドメイン固有の食品の危険に合わせた厳格なアライメントを欠いている。
このギャップに対処するために、FDAガイドラインに基づく3,339のクエリからなる最初の総合的なベンチマークであるFoodGuardBenchを紹介し、LCMの安全性と堅牢性を評価する。
食品安全原則の分類を構築し, 代表的なジェイルブレイク攻撃(AutoDAN, PAP)を用いて, 既存のLCMとガードレールを体系的に評価した。
評価の結果,3つの重大な脆弱性が判明した。まず,現在のLCMは食品関連領域で軽度に安全を保ちつつ,いくつかの標準的なジェイルブレイク戦略に順応する。
第二に、LLMは悪質なアクターに不注意に権限を与え、具体的なリスクを訴える、行動可能で有害な命令を頻繁に生成する。
第3に、既存のLLMベースのガードレールは、これらのドメイン固有の脅威を体系的に見落とし、かなりの量の悪意のある入力を検出できなかった。
これらの脆弱性を軽減するため、食品関連ドメイン内のLSMを保護するために、データセットに微調整された特別なガードレールモデルであるFoodGuard-4Bを紹介します。
関連論文リスト
- Safety and Security Analysis of Large Language Models: Benchmarking Risk Profile and Harm Potential [0.1631115063641726]
本研究は,9大言語モデル(LLM)の実証分析とリスクプロファイルを提供する。
RSIはアジャイルでスケーラブルな評価スコアであり、セキュリティ姿勢を定量化し比較し、LLMのリスクプロファイルを作成する。
この研究は、テストされたLLMの安全性フィルタの広範な脆弱性を発見し、より強力なアライメント、責任あるデプロイメントプラクティス、モデルガバナンスの必要性を強調している。
論文 参考訳(メタデータ) (2025-09-12T19:34:10Z) - Beyond Jailbreaks: Revealing Stealthier and Broader LLM Security Risks Stemming from Alignment Failures [17.9033567125575]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされ、セキュリティに対する懸念が高まっている。
ジェイルブレイク攻撃は、過度に有害なクエリの下での失敗を浮き彫りにするが、彼らは重大なリスクを見落としている。
我々は,高リスク領域を明らかにすることで,出力の事実性と入力の無害性に基づいて,構造化された二次的な視点でLLMリスク景観を体系的に再構築する。
論文 参考訳(メタデータ) (2025-06-09T03:52:43Z) - Security Concerns for Large Language Models: A Survey [4.1824815480811806]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
この調査は、脅威をいくつかの重要な領域に分類する、これらの新興懸念の包括的概要を提供する。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。