論文の概要: The Violation State: Safety State Persistence in a Multimodal Language Model Interface
- arxiv url: http://arxiv.org/abs/2601.06049v1
- Date: Thu, 18 Dec 2025 15:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.590386
- Title: The Violation State: Safety State Persistence in a Multimodal Language Model Interface
- Title(参考訳): 換気状態:マルチモーダル言語モデルインタフェースにおける安全性状態の持続性
- Authors: Bentley DeVilling,
- Abstract要約: マルチモーダルAIシステムは、テキスト生成、画像生成、その他の機能を単一の会話インターフェースに統合する。
シングルターン拒否は期待されているが、安全フィルタと会話レベル状態の相互作用はよく理解されていない。
本稿では,ChatGPT (GPT-5.1) Webインターフェースにおける再現可能な動作効果について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal AI systems integrate text generation, image generation, and other capabilities within a single conversational interface. These systems employ safety mechanisms to prevent disallowed actions, including the removal of watermarks from copyrighted images. While single-turn refusals are expected, the interaction between safety filters and conversation-level state is not well understood. This study documents a reproducible behavioral effect in the ChatGPT (GPT-5.1) web interface. Manual execution was chosen to capture the exact user-facing safety behavior of the production system, rather than isolated API components. When a conversation begins with an uploaded copyrighted image and a request to remove a watermark, which the model correctly refuses, subsequent prompts to generate unrelated, benign images are refused for the remainder of the session. Importantly, text-only requests (e.g., generating a Python function) continue to succeed. Across 40 manually run sessions (30 contaminated and 10 controls), contaminated threads showed 116/120 image-generation refusals (96.67%), while control threads showed 0/40 refusals (Fisher's exact p < 0.0001). All sessions used an identical fixed prompt order, ensuring sequence uniformity across conditions. We describe this as safety-state persistence: a form of conversational over-generalization in which a copyright refusal influences subsequent, unrelated image-generation behavior. We present these findings as behavioral observations, not architectural claims. We discuss possible explanations, methodological limitations (single model, single interface), and implications for multimodal reliability, user experience, and the design of session-level safety systems. These results motivate further examination of session-level safety interactions in multimodal AI systems.
- Abstract(参考訳): マルチモーダルAIシステムは、テキスト生成、画像生成、その他の機能を単一の会話インターフェースに統合する。
これらのシステムは、著作権のある画像から透かしを除去するなど、許可されていない行為を防ぐための安全メカニズムを採用している。
シングルターン拒否は期待されているが、安全フィルタと会話レベル状態の相互作用はよく理解されていない。
本稿では,ChatGPT (GPT-5.1) Webインターフェースにおける再現可能な動作効果について述べる。
手動実行は、分離されたAPIコンポーネントではなく、運用システムのユーザ向きの正確な安全動作をキャプチャするために選択された。
会話がアップロードされた著作権画像と、モデルが正しく拒否する透かしを削除する要求から始まると、その後、セッションの残りで無関係な良性画像を生成するプロンプトが拒否される。
重要なのは、テキストのみのリクエスト(例えば、Python関数を生成する)が引き続き成功し続けることだ。
40のセッション(30の汚染と10の制御)中、汚染されたスレッドは116/120の画像生成の拒絶(96.67%)を示し、制御スレッドは0/40の拒絶を示した(フィッシャーの正確なp < 0.0001)。
すべてのセッションは、同じ固定されたプロンプト順序を使用し、条件をまたいだシーケンスの均一性を確保した。
これは、著作権の拒絶がその後の無関係な画像生成行動に影響を及ぼす会話の過剰一般化の一形態である。
我々はこれらの知見を,アーキテクチャ上の主張ではなく,行動観察として提示する。
本稿では,マルチモーダルな信頼性,ユーザエクスペリエンス,セッションレベルの安全システムの設計について,可能な説明,方法論的制限(単一モデル,単一インタフェース)について論じる。
これらの結果は,マルチモーダルAIシステムにおけるセッションレベルの安全インタラクションのさらなる検証を動機付けている。
関連論文リスト
- In AI Sweet Harmony: Sociopragmatic Guardrail Bypasses and Evaluation-Awareness in OpenAI gpt-oss-20b [0.0]
本研究では,社会実践的フレーミング,言語選択,命令階層が拒絶行動に与える影響について検討する。
我々は、ZIPボム構築(サイバー脅威)を含むいくつかの有害ドメインをテストする。
OpenAI モデレーション API は,セマンティックグレーダに対して非常に有用な出力を提供する。
論文 参考訳(メタデータ) (2025-09-25T07:00:12Z) - Multimodal Prompt Decoupling Attack on the Safety Filters in Text-to-Image Models [73.43013217318965]
マルチモーダル・プロンプト・デカップリング・アタック(MPDA)
MPDAは画像モダリティを使用して、元の安全でないプロンプトの有害なセマンティックコンポーネントを分離する。
ビジュアル言語モデルは、生成したNSFW画像と元の安全でないプロンプトとのセマンティック一貫性を確保するために画像キャプションを生成する。
論文 参考訳(メタデータ) (2025-09-21T11:22:32Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Image Generation from Contextually-Contradictory Prompts [50.999420029656214]
本稿では,プロキシプロンプトのシーケンスを用いて認知過程をガイドする段階認識プロンプト分解フレームワークを提案する。
本手法は,文脈矛盾の存在下でのきめ細かな意味制御と正確な画像生成を可能にする。
論文 参考訳(メタデータ) (2025-06-02T17:48:12Z) - TokenProber: Jailbreaking Text-to-image Models via Fine-grained Word Impact Analysis [19.73325740171627]
感性認識型差分テストのためのTokenProberを提案する。
我々のアプローチは、T2Iモデルとセーフティチェッカーがセンシティブなコンテンツをどう解釈するかの相違を利用して、敵がしばしば成功するという重要な観察に基づいている。
324 NSFWプロンプトを用いた3つのT2Iモデル上での5つの安全チェッカーに対するTokenProberの評価は,その優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-11T06:32:33Z) - When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems [43.251956413566546]
インセプションは、現実のテキスト・ツー・イメージ生成システムに対する最初のマルチターンジェイルブレイク攻撃である。
2段階の安全フィルタと産業レベルのメモリ機構を統合したエミュレーションT2Iシステムを構築した。
論文 参考訳(メタデータ) (2025-04-29T02:40:36Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - CGUA: Context-Guided and Unpaired-Assisted Weakly Supervised Person
Search [54.106662998673514]
本稿では,コンテキストガイドとアンペア支援(CGUA)を弱教師付き人物検索フレームワークとして導入する。
具体的には、クラスタリングプロセスにおけるコンテキスト情報を活用する新しいコンテキストガイドクラスタ(CGC)アルゴリズムを提案する。
本手法は,より多様なラベル付きデータを活用することにより,最先端の教師付き手法に匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T13:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。