論文の概要: SenBen: Sensitive Scene Graphs for Explainable Content Moderation
- arxiv url: http://arxiv.org/abs/2604.08819v1
- Date: Thu, 09 Apr 2026 23:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.611604
- Title: SenBen: Sensitive Scene Graphs for Explainable Content Moderation
- Title(参考訳): SenBen: 説明可能なコンテンツモデレーションのための感性的なシーングラフ
- Authors: Fatih Cagatay Akyon, Alptekin Temizel,
- Abstract要約: 我々は、センシティブなコンテンツのための最初の大規模シーングラフベンチマークであるSensitive Benchmark(SenBen)を紹介する。
SenBenは、Visual Genomeスタイルのシーングラフで注釈付けされた157本の13,999フレームで構成されている。
自動回帰シーングラフ生成における語彙不均衡に対処するマルチタスクレシピを用いて,フロンティアVLMをコンパクトな241M学生モデルに蒸留する。
- 参考スコア(独自算出の注目度): 5.929956715430168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content moderation systems classify images as safe or unsafe but lack spatial grounding and interpretability: they cannot explain what sensitive behavior was detected, who is involved, or where it occurs. We introduce the Sensitive Benchmark (SenBen), the first large-scale scene graph benchmark for sensitive content, comprising 13,999 frames from 157 movies annotated with Visual Genome-style scene graphs (25 object classes, 28 attributes including affective states such as pain, fear, aggression, and distress, 14 predicates) and 16 sensitivity tags across 5 categories. We distill a frontier VLM into a compact 241M student model using a multi-task recipe that addresses vocabulary imbalance in autoregressive scene graph generation through suffix-based object identity, Vocabulary-Aware Recall (VAR) Loss, and a decoupled Query2Label tag head with asymmetric loss, yielding a +6.4 percentage point improvement in SenBen Recall over standard cross-entropy training. On grounded scene graph metrics, our student model outperforms all evaluated VLMs except Gemini models and all commercial safety APIs, while achieving the highest object detection and captioning scores across all models, at $7.6\times$ faster inference and $16\times$ less GPU memory.
- Abstract(参考訳): コンテンツモデレーションシステムは、イメージを安全または安全でないものとして分類するが、空間的な接地や解釈性が欠如している。
感性ベンチマーク(SenBen)は、視覚ゲノムスタイルのシーングラフ(25のオブジェクトクラス、28の属性、痛み、恐怖、攻撃、苦痛などの情緒的状態を含む28の属性、14の述語、16の感度タグ)を付加した157本の13,999フレームからなる、センシティブなコンテンツに対する最初の大規模シーングラフベンチマークである。
我々は,フロンティアVLMを,接尾辞に基づくオブジェクトアイデンティティ,VAR(Vocabulary-Aware Recall)損失,非対称な非対称なQuery2Labelタグヘッドを通じて自動回帰シーングラフ生成における語彙不均衡に対処するマルチタスクレシピを用いて,コンパクトな241M学生モデルに蒸留する。
ランドスケープグラフのメトリクスに基づいて、私たちの学生モデルは、Geminiモデルとすべての商用安全APIを除いて、評価済みのVLMよりも優れていますが、すべてのモデルで最高のオブジェクト検出とキャプションスコアを7.6\times$高速推論と16\times$低いGPUメモリで達成しています。
関連論文リスト
- Attention over Scene Graphs: Indoor Scene Representations Toward CSAI Classification [3.886408092405825]
生のピクセルの代わりに構造化グラフ表現を利用する新しいフレームワークを提案する。
Places8では、81.27%の精度を達成し、画像ベースの手法を超越した。
本研究は,屋内シーン分類とCSAI分類のためのロバストなパラダイムとして,構造化シーン表現を確立した。
論文 参考訳(メタデータ) (2025-09-30T16:09:34Z) - Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification [56.974545305472304]
感情分析のためのほとんどのデータセットは、意見が表現された文脈を欠き、感情理解に不可欠であり、主にいくつかの感情カテゴリーによって制限される。
我々はLLMベースのデータ合成パイプラインを設計し、よりアクセスしやすい軽量BERT型エンコーダモデルのトレーニング例を生成するために、大規模モデルMistral-7bを利用する。
Emo Pillarsモデルは、GoEmotions、ISEAR、IEMOCAP、EmoContextといった特定のタスクに調整された場合、新しいドメインに対して高い適応性を示し、最初の3つでSOTAのパフォーマンスに達した。
論文 参考訳(メタデータ) (2025-04-23T16:23:17Z) - A Fair Ranking and New Model for Panoptic Scene Graph Generation [51.78798765130832]
Decoupled SceneFormer(DSFormer)は、既存のすべてのシーングラフモデルよりも優れた2段階モデルである。
基本設計原則として、DSFormerは被写体とオブジェクトマスクを直接特徴空間にエンコードする。
論文 参考訳(メタデータ) (2024-07-12T12:28:08Z) - Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024 [12.274092278786966]
信頼できない擬似ラベルに基づく半教師付きビデオセマンティックセグメンテーション手法を採用する。
本手法では,mIoUが63.71%,67.83%,最終試験が67.83%であった。
CVPR 2024におけるワイルドチャレンジにおけるビデオ・シーン・パーシングの第1位を獲得した。
論文 参考訳(メタデータ) (2024-06-02T01:37:26Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Fine-Grained Predicates Learning for Scene Graph Generation [155.48614435437355]
Fine-Grained Predicates Learningは、シーングラフ生成タスクにおいて、識別困難な述語間の差別化を目的としている。
本稿では,SGGモデルによる詳細な述語ペアの探索を支援するPredicate Latticeを提案する。
次に、カテゴリ識別損失とエンティティ識別損失を提案し、どちらも粒度の細かい述語の識別に寄与する。
論文 参考訳(メタデータ) (2022-04-06T06:20:09Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。