論文の概要: OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2505.21347v1
- Date: Tue, 27 May 2025 15:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.768299
- Title: OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models
- Title(参考訳): OVERT: テキスト・トゥ・イメージ・モデルにおける過剰な拒絶評価のためのベンチマーク
- Authors: Ziheng Cheng, Yixiao Huang, Hui Xu, Somayeh Sojoudi, Xuandong Zhao, Dawn Song, Song Mei,
- Abstract要約: Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
オーバーリフレクションは、T2Iモデルの安全性向上のためのさらなる研究の必要性を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 73.6716695218951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) models have achieved remarkable success in generating visual content from text inputs. Although multiple safety alignment strategies have been proposed to prevent harmful outputs, they often lead to overly cautious behavior -- rejecting even benign prompts -- a phenomenon known as $\textit{over-refusal}$ that reduces the practical utility of T2I models. Despite over-refusal having been observed in practice, there is no large-scale benchmark that systematically evaluates this phenomenon for T2I models. In this paper, we present an automatic workflow to construct synthetic evaluation data, resulting in OVERT ($\textbf{OVE}$r-$\textbf{R}$efusal evaluation on $\textbf{T}$ext-to-image models), the first large-scale benchmark for assessing over-refusal behaviors in T2I models. OVERT includes 4,600 seemingly harmful but benign prompts across nine safety-related categories, along with 1,785 genuinely harmful prompts (OVERT-unsafe) to evaluate the safety-utility trade-off. Using OVERT, we evaluate several leading T2I models and find that over-refusal is a widespread issue across various categories (Figure 1), underscoring the need for further research to enhance the safety alignment of T2I models without compromising their functionality.As a preliminary attempt to reduce over-refusal, we explore prompt rewriting; however, we find it often compromises faithfulness to the meaning of the original prompts. Finally, we demonstrate the flexibility of our generation framework in accommodating diverse safety requirements by generating customized evaluation data adapting to user-defined policies.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルはテキスト入力から視覚コンテンツを生成することに成功している。
有害なアウトプットを防ぐために複数の安全アライメント戦略が提案されているが、しばしば過度に慎重な行動(良心的なプロンプトも拒否する)を引き起こし、これは$\textit{over-Refusal}$として知られる現象であり、T2Iモデルの実用性を低下させる。
実際には過剰な拒絶が観測されているにもかかわらず、T2Iモデルに対してこの現象を体系的に評価する大規模なベンチマークは存在しない。
本稿では,合成評価データを構築するための自動ワークフローを提案する。OVERT ($\textbf{OVE}$r-$\textbf{R}$efusal evaluation on $\textbf{T}$ext-to-image modelは,T2Iモデルにおけるオーバーリフレクション動作を評価するための最初の大規模ベンチマークである。
OVERTには、9つの安全関連カテゴリにまたがって4,600件の有害と思われるが良心的なプロンプトと、1,785件の真に有害なプロンプト(OVERT-unsafe)が含まれている。
OVERTを用いて、いくつかの主要なT2Iモデルを評価し、オーバーリフレルが様々なカテゴリにまたがる問題であること(第1図)、その機能を損なうことなくT2Iモデルの安全性を向上するためのさらなる研究の必要性を指摘した上で、即時リライトの試行として、元のプロンプトの意味に忠実さを損なうことがしばしばあることを発見した。
最後に、ユーザ定義ポリシーに適合したカスタマイズされた評価データを生成することにより、多様な安全要件を調節する次世代フレームワークの柔軟性を実証する。
関連論文リスト
- T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。
我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。
我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文 参考訳(メタデータ) (2025-01-22T03:29:43Z) - SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
テキスト・ツー・イメージ(T2I)モデルは広く普及しているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
現在の安全対策はテキストベースのフィルタリングや概念除去戦略に限られており、モデルの生成能力からわずかに概念を除去することができる。
直接選好最適化(DPO)によるT2Iモデルの安全アライメント手法であるSafetyDPOを導入する。
我々は、ローランク適応(LoRA)行列の形で、特定の安全関連から生成プロセスを導くことができる安全専門家を訓練する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Position: Towards Implicit Prompt For Text-To-Image Models [57.00716011456852]
本稿では,テキスト・トゥ・イメージ(T2I)モデルの現状を暗黙のプロンプトに向けて強調する。
我々は、ImplicitBenchというベンチマークを示し、暗黙のプロンプトのパフォーマンスと影響について調査する。
実験結果から,T2Iモデルは暗黙のプロンプトで示される様々なターゲットシンボルを正確に生成できることがわかった。
論文 参考訳(メタデータ) (2024-03-04T15:21:51Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。