論文の概要: Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases
- arxiv url: http://arxiv.org/abs/2602.04739v1
- Date: Wed, 04 Feb 2026 16:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.63393
- Title: Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases
- Title(参考訳): マルチモーダルLDMにおけるアライメントドリフト:8つのモデルリリースにおけるハームの2相縦断的評価
- Authors: Casey Ford, Madison Van Doren, Emily Dix,
- Abstract要約: マルチモーダル・大規模言語モデル (MLLM) は現実世界のシステムにますます導入されているが、その安全性は相変わらず探索されていない。
そこで本研究では,26名のプロレッドチームによる726名の相手プロンプトの固定ベンチマークを用いて,MLLMの無害度を2段階評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly deployed in real-world systems, yet their safety under adversarial prompting remains underexplored. We present a two-phase evaluation of MLLM harmlessness using a fixed benchmark of 726 adversarial prompts authored by 26 professional red teamers. Phase 1 assessed GPT-4o, Claude Sonnet 3.5, Pixtral 12B, and Qwen VL Plus; Phase 2 evaluated their successors (GPT-5, Claude Sonnet 4.5, Pixtral Large, and Qwen Omni) yielding 82,256 human harm ratings. Large, persistent differences emerged across model families: Pixtral models were consistently the most vulnerable, whereas Claude models appeared safest due to high refusal rates. Attack success rates (ASR) showed clear alignment drift: GPT and Claude models exhibited increased ASR across generations, while Pixtral and Qwen showed modest decreases. Modality effects also shifted over time: text-only prompts were more effective in Phase 1, whereas Phase 2 produced model-specific patterns, with GPT-5 and Claude 4.5 showing near-equivalent vulnerability across modalities. These findings demonstrate that MLLM harmlessness is neither uniform nor stable across updates, underscoring the need for longitudinal, multimodal benchmarks to track evolving safety behaviour.
- Abstract(参考訳): マルチモーダル・大規模言語モデル (MLLM) は現実世界のシステムにますます導入されているが、その安全性は相変わらず探索されていない。
そこで本研究では,26名のプロレッドチームによる726名の相手プロンプトの固定ベンチマークを用いて,MLLMの無害度を2段階評価する。
第1相は、GPT-4o、Claude Sonnet 3.5、Pixtral 12B、Qwen VL Plusを評価し、第2相は、その後継者(GPT-5、Claude Sonnet 4.5、Pixtral Large、Qwen Omni)を82,256人の損害評価で評価した。
ピクサールモデルは一貫して最も脆弱であったが、クロードモデルは高い拒絶率のために最も安全であった。
GPTモデルとClaudeモデルでは世代毎にASRが増加し,PixtralモデルとQwenモデルでは緩やかに減少していた。
テキストのみのプロンプトはフェーズ1ではより効果的であり、フェーズ2ではモデル固有のパターンが生成され、GPT-5とClaude 4.5はモダリティのほぼ等価な脆弱性を示した。
これらの結果から,MLLMの無害性は更新全体にわたって均一でも安定でもなく,進化する安全行動を追跡するための縦型マルチモーダルベンチマークの必要性が強調された。
関連論文リスト
- In-Context Environments Induce Evaluation-Awareness in Language Models [0.12691047660244334]
人間は脅威の下でより自覚的になるが、タスクに吸収されると自意識を失うことがある。
我々は,テキスト内プロンプトを最適化可能な環境として扱うブラックボックス逆最適化フレームワークを提案する。
我々は、逆最適化されたプロンプトが、これまで理解されていたよりもはるかに高い信頼性の脅威をもたらすことを示した。
論文 参考訳(メタデータ) (2026-03-04T08:22:02Z) - Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems [0.5833117322405447]
マルチターンLLMシステムは、アップグレード、クロスプロジェクタルーティング、フォールバックにより、通常、モデルの中間動作を切り替える。
本稿では,初期ターンのプレフィックスモデルと最終ターンの接尾辞モデルを実行することで,その効果を測定するスイッチ行列ベンチマークを提案する。
シングルターンのハンドオフでさえ、一般的で統計的に有意な方向効果をもたらす。
論文 参考訳(メタデータ) (2026-03-03T15:44:57Z) - A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4233736714284]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、言語とビジョンをまたいだ推論、認識、生成において大きな進歩をもたらした。
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5-assesing each across language, vision- language and image generation。
論文 参考訳(メタデータ) (2026-01-15T15:52:52Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models [66.71948519280669]
MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
論文 参考訳(メタデータ) (2025-10-08T10:39:12Z) - Red Teaming Multimodal Language Models: Evaluating Harm Across Prompt Modalities and Models [0.0]
マルチモーダル大規模言語モデル (MLLM) は, 現実の応用においてますます利用されているが, 敵条件下での安全性はいまだ検討されていない。
本研究は,テキストのみおよびマルチモーダル形式にまたがる敵対的プロンプトに曝露した4つのMLLMの無害性を評価する。
論文 参考訳(メタデータ) (2025-09-18T22:51:06Z) - Zero-knowledge LLM hallucination detection and mitigation through fine-grained cross-model consistency [10.123156884375202]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な能力を示してきたが、幻覚(幻覚)の影響を受けにくい。
Finch-Zkは、細粒度のクロスモデル一貫性を利用して幻覚を検知・緩和するブラックボックスフレームワークである。
論文 参考訳(メタデータ) (2025-08-19T23:45:34Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Benchmarking Gaslighting Negation Attacks Against Multimodal Large Language Models [45.63440666848143]
MLLM(Multimodal Large Language Models)は、様々なモダリティの統合において顕著な進歩を見せている。
彼らの成功にもかかわらず、MLLMは会話の敵対的な入力に弱いままである。
我々は,最初に正しい回答を提供するモデルが,ユーザが提供する否定によってそのアウトプットを逆転するように説得される現象であるガスライティング否定攻撃について検討する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。