論文の概要: A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
- arxiv url: http://arxiv.org/abs/2601.10527v2
- Date: Fri, 16 Jan 2026 15:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 14:30:44.067892
- Title: A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
- Title(参考訳): GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 の安全報告
- Authors: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang,
- Abstract要約: 大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、言語とビジョンをまたいだ推論、認識、生成において大きな進歩をもたらした。
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5-assesing each across language, vision- language and image generation。
- 参考スコア(独自算出の注目度): 101.4233736714284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has driven major gains in reasoning, perception, and generation across language and vision, yet whether these advances translate into comparable improvements in safety remains unclear, partly due to fragmented evaluations that focus on isolated modalities or threat models. In this report, we present an integrated safety evaluation of six frontier models--GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5--assessing each across language, vision-language, and image generation using a unified protocol that combines benchmark, adversarial, multilingual, and compliance evaluations. By aggregating results into safety leaderboards and model profiles, we reveal a highly uneven safety landscape: while GPT-5.2 demonstrates consistently strong and balanced performance, other models exhibit clear trade-offs across benchmark safety, adversarial robustness, multilingual generalization, and regulatory compliance. Despite strong results under standard benchmarks, all models remain highly vulnerable under adversarial testing, with worst-case safety rates dropping below 6%. Text-to-image models show slightly stronger alignment in regulated visual risk categories, yet remain fragile when faced with adversarial or semantically ambiguous prompts. Overall, these findings highlight that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation design--underscoring the need for standardized, holistic safety assessments to better reflect real-world risk and guide responsible deployment.
- Abstract(参考訳): LLM(Large Language Models)とMLLM(Multimodal Large Language Models)の急速な進化は、言語とビジョンをまたいだ推論、認識、生成において大きな進歩をもたらしたが、これらの進歩が、分離されたモダリティや脅威モデルに焦点を当てた断片的な評価のために、同様の安全性の改善に変換されるかどうかは不明なままである。
本稿では,GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5--assesing each across language, vision- language, and image generation using a unified protocol that combineds benchmark, adversarial, multilingual, and compliance evaluations。
GPT-5.2は一貫して強靭でバランスの取れた性能を示す一方、他のモデルはベンチマークの安全性、敵対的堅牢性、多言語の一般化、規制順守に明確なトレードオフを示す。
標準ベンチマーク下での強い結果にもかかわらず、すべてのモデルは敵の試験において非常に脆弱であり、最悪のケースの安全率は6%以下である。
テキスト・ツー・イメージモデルは、規制された視覚的リスクカテゴリーにおいてわずかにアライメントが強いが、敵対的あるいは意味的に曖昧なプロンプトに直面した場合、脆弱なままである。
全体として、フロンティアモデルの安全性は本質的に多次元的であり、モダリティ、言語、評価設計によって形づくられている。
関連論文リスト
- OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models [54.80460603255789]
マルチモーダル時代に設計された,最も包括的なコンテンツ安全性評価テストスイートであるOutSafe-Benchを紹介する。
OutSafe-Benchには、4つのモダリティにまたがる大規模なデータセットが含まれており、18,000以上のバイリンガル(中国語と英語)テキストプロンプト、4500のイメージ、450のオーディオクリップ、450のビデオが9つの重要なコンテンツリスクカテゴリで体系的に注釈付けされている。
このデータセットに加えて,多次元クロスリスクスコア(Multidimensional Cross Risk Score, MCRS)も導入した。
論文 参考訳(メタデータ) (2025-11-13T13:18:27Z) - Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models [0.0]
本研究では,Large Language Models (LLM) のインジェクション攻撃に対する耐性を評価するための統一フレームワークを提案する。
このフレームワークは、堅牢性、安全性、セマンティック安定性を共同で測定するRDI(Resilience Degradation Index)、SCC(Safety Compliance Coefficient)、IIM(Constructal Integrity Metric)という3つの指標を定義している。
論文 参考訳(メタデータ) (2025-11-03T14:43:56Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - PL-Guard: Benchmarking Language Model Safety for Polish [43.39208658482427]
ポーランド語における言語モデルの安全性分類のために,手動で注釈付きベンチマークデータセットを導入する。
また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。
我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。
論文 参考訳(メタデータ) (2025-06-19T13:56:41Z) - Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings [51.65890794988425]
本研究は,DeepSeekモデルの最初の包括的安全性評価である。
評価対象は,DeepSeekの最新の大規模言語モデル,マルチモーダル大規模言語モデル,テキスト・ツー・イメージモデルである。
論文 参考訳(メタデータ) (2025-03-19T10:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。