論文の概要: A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
- arxiv url: http://arxiv.org/abs/2601.10527v1
- Date: Thu, 15 Jan 2026 15:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.204645
- Title: A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
- Title(参考訳): GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5
- Authors: Xingjun Ma, Yixu Wang, Hengyuan Xu, Yutao Wu, Yifan Ding, Yunhan Zhao, Zilong Wang, Jiabin Hua, Ming Wen, Jianan Liu, Ranjie Duan, Yifeng Gao, Yingshui Tan, Yunhao Chen, Hui Xue, Xin Wang, Wei Cheng, Jingjing Chen, Zuxuan Wu, Bo Li, Yu-Gang Jiang,
- Abstract要約: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。
ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
- 参考スコア(独自算出の注目度): 101.4233736714284
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid evolution of Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) has produced substantial gains in reasoning, perception, and generative capability across language and vision. However, whether these advances yield commensurate improvements in safety remains unclear, in part due to fragmented evaluation practices limited to single modalities or threat models. In this report, we present an integrated safety evaluation of 7 frontier models: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5. We evaluate each model across language, vision-language, and image generation settings using a unified protocol that integrates benchmark evaluation, adversarial evaluation, multilingual evaluation, and compliance evaluation. Aggregating our evaluations into safety leaderboards and model safety profiles across multiple evaluation modes reveals a sharply heterogeneous safety landscape. While GPT-5.2 demonstrates consistently strong and balanced safety performance across evaluations, other models exhibit pronounced trade-offs among benchmark safety, adversarial alignment, multilingual generalization, and regulatory compliance. Both language and vision-language modalities show significant vulnerability under adversarial evaluation, with all models degrading substantially despite strong results on standard benchmarks. Text-to-image models achieve relatively stronger alignment in regulated visual risk categories, yet remain brittle under adversarial or semantically ambiguous prompts. Overall, these results show that safety in frontier models is inherently multidimensional--shaped by modality, language, and evaluation scheme, underscoring the need for standardized safety evaluations to accurately assess real-world risk and guide responsible model development and deployment.
- Abstract(参考訳): LLM(Large Language Models)とMLLM(Multimodal Large Language Models)の急速な進化は、言語とビジョンをまたいだ推論、知覚、生成能力において大きな進歩をもたらした。
しかし、これらの進歩が安全性の複合的な改善をもたらすかどうかは不明であり、その一部は単一モダリティや脅威モデルに限定された断片化された評価手法によるものである。
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5。
ベンチマーク評価,対角評価,多言語評価,コンプライアンス評価を統合した統一プロトコルを用いて,言語,視覚言語,画像生成設定の各モデルを評価する。
評価を複数の評価モードにまたがって安全板とモデル安全プロファイルに集約すると、非常に異質な安全景観が明らかになる。
GPT-5.2は、評価において一貫して強固でバランスの取れた安全性能を示すが、他のモデルでは、ベンチマーク安全性、逆アライメント、多言語一般化、規制コンプライアンスのトレードオフが顕著である。
言語と視覚言語の両方のモダリティは、標準ベンチマークの強い結果にもかかわらず、すべてのモデルが大幅に劣化する一方で、敵対的評価の下で重大な脆弱性を示す。
テキスト・ツー・イメージ・モデルは、規制された視覚的リスクカテゴリーにおいて比較的強いアライメントを達成するが、敵対的あるいは意味的に曖昧なプロンプトの下では不安定なままである。
これらの結果から,フロンティアモデルの安全性は,モダリティ,言語,評価スキームによって本質的に多次元形状であり,現実世界のリスクを正確に評価し,責任あるモデル開発と展開を導くための標準化された安全性評価の必要性が示唆された。
関連論文リスト
- OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models [54.80460603255789]
マルチモーダル時代に設計された,最も包括的なコンテンツ安全性評価テストスイートであるOutSafe-Benchを紹介する。
OutSafe-Benchには、4つのモダリティにまたがる大規模なデータセットが含まれており、18,000以上のバイリンガル(中国語と英語)テキストプロンプト、4500のイメージ、450のオーディオクリップ、450のビデオが9つの重要なコンテンツリスクカテゴリで体系的に注釈付けされている。
このデータセットに加えて,多次元クロスリスクスコア(Multidimensional Cross Risk Score, MCRS)も導入した。
論文 参考訳(メタデータ) (2025-11-13T13:18:27Z) - Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models [0.0]
本研究では,Large Language Models (LLM) のインジェクション攻撃に対する耐性を評価するための統一フレームワークを提案する。
このフレームワークは、堅牢性、安全性、セマンティック安定性を共同で測定するRDI(Resilience Degradation Index)、SCC(Safety Compliance Coefficient)、IIM(Constructal Integrity Metric)という3つの指標を定義している。
論文 参考訳(メタデータ) (2025-11-03T14:43:56Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - PL-Guard: Benchmarking Language Model Safety for Polish [43.39208658482427]
ポーランド語における言語モデルの安全性分類のために,手動で注釈付きベンチマークデータセットを導入する。
また、モデルロバスト性に挑戦するために設計されたこれらのサンプルの逆摂動変異体も作成する。
我々は、アノテーション付きデータの異なる組み合わせを用いてこれらのモデルをトレーニングし、それらのパフォーマンスを評価し、公開されているガードモデルと比較する。
論文 参考訳(メタデータ) (2025-06-19T13:56:41Z) - Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings [51.65890794988425]
本研究は,DeepSeekモデルの最初の包括的安全性評価である。
評価対象は,DeepSeekの最新の大規模言語モデル,マルチモーダル大規模言語モデル,テキスト・ツー・イメージモデルである。
論文 参考訳(メタデータ) (2025-03-19T10:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。