Fugu-MT 論文翻訳(概要): KidsNanny: A Two-Stage Multimodal Content Moderation Pipeline Integrating Visual Classification, Object Detection, OCR, and Contextual Reasoning for Child Safety

論文の概要: KidsNanny: A Two-Stage Multimodal Content Moderation Pipeline Integrating Visual Classification, Object Detection, OCR, and Contextual Reasoning for Child Safety

arxiv url: http://arxiv.org/abs/2603.16181v1
Date: Tue, 17 Mar 2026 07:00:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.138933
Title: KidsNanny: A Two-Stage Multimodal Content Moderation Pipeline Integrating Visual Classification, Object Detection, OCR, and Contextual Reasoning for Child Safety
Title（参考訳）: KidsNanny: 子どもの安全のための視覚分類、物体検出、OCR、コンテキスト推論を統合した2段階のマルチモーダルコンテンツモデレーションパイプライン
Authors: Viraj Panchal, Tanmay Talsaniya, Parag Patel, Meet Patel,
Abstract要約: KidsNannyは、子どもの安全のための2段階のマルチモーダルコンテンツモデレーションアーキテクチャである。ステージ1は視覚変換器(ViT)と物体検出器を組み合わせた視覚スクリーニング(11.7ms)である。ステージ2では、コンテキスト推論のためのOCRとテキストベースの7B言語モデル(総パイプライン120ms)が採用されている。視覚のみ, アイソレーションステージ1, マルチモーダルの2つの条件でUnsafeBench Sexual category(1,054画像)を評価し, フルステージ1+2パイプラインの評価を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present KidsNanny, a two-stage multimodal content moderation architecture for child safety. Stage 1 combines a vision transformer (ViT) with an object detector for visual screening (11.7 ms); outputs are routed as text not raw pixels to Stage 2, which applies OCR and a text based 7B language model for contextual reasoning (120 ms total pipeline). We evaluate on the UnsafeBench Sexual category (1,054 images) under two regimes: vision-only, isolating Stage 1, and multimodal, evaluating the full Stage 1+2 pipeline. Stage 1 achieves 80.27% accuracy and 85.39% F1 at 11.7 ms; vision-only baselines range from 59.01% to 77.04% accuracy. The full pipeline achieves 81.40% accuracy and 86.16% F1 at 120 ms, compared to ShieldGemma-2 (64.80% accuracy, 1,136 ms) and LlavaGuard (80.36% accuracy, 4,138 ms). To evaluate text-awareness, we filter two subsets: a text+visual subset (257 images) and a text-only subset (44 images where safety depends primarily on embedded text). On text-only images, KidsNanny achieves 100% recall (25/25 positives; small sample) and 75.76% precision; ShieldGemma-2 achieves 84% recall and 60% precision at 1,136 ms. Results suggest that dedicated OCR-based reasoning may offer recall-precision advantages on text-embedded threats at lower latency, though the small text-only subset limits generalizability. By documenting this architecture and evaluation methodology, we aim to contribute to the broader research effort on efficient multimodal content moderation for child safety.
Abstract（参考訳）: KidsNannyは、子どもの安全のための2段階のマルチモーダルコンテンツモデレーションアーキテクチャである。ステージ1は視覚変換器(ViT)と視覚スクリーニング用のオブジェクト検出器(11.7ms)を組み合わせており、出力は生のピクセルではなくテキストとしてステージ2にルーティングされる。視覚のみ, アイソレーションステージ1, マルチモーダルの2つの条件でUnsafeBench Sexual category(1,054画像)を評価し, フルステージ1+2パイプラインの評価を行った。ステージ1の精度は80.27%、F1は85.39%で11.7ms、視力のみのベースラインは59.01%から77.04%である。全パイプラインは81.40%の精度と86.16%のF1を120msで達成し、ShielgeGemma-2(64.80%の精度、1,136ms)とLlavaGuard(80.36%の精度、4,138ms)と比較した。テキスト認識性を評価するために,テキスト+視覚サブセット(257画像)とテキスト専用サブセット(44画像)の2つのサブセットをフィルタリングする。 KidsNannyは100%リコール(25/25陽性、小さなサンプル)と75.76%の精度、ShieldGemma-2は84%リコール、60%の精度を1,136msで達成している。このアーキテクチャと評価手法を文書化することにより、子どもの安全のための効率的なマルチモーダルコンテンツモデレーションに関する研究に貢献することを目指している。

関連論文リスト

VisualLeakBench: Auditing the Fragility of Large Vision-Language Models against PII Leakage and Social Engineering [14.756677328512907]
VisualLeakBenchは、OCRインジェクションとContextual PII Leakageに対してLVLMを監査するための評価スイートである。 8種類のPII型を持つ合成逆画像1,000枚を用いて,実世界の実画像50枚に検証を行った。我々は、再現可能な堅牢性と、デプロイメント関連視覚言語システムの安全性評価のためのデータセットとコードをリリースする。
論文参考訳（メタデータ） (2026-03-11T05:47:24Z)
Malicious Image Analysis via Vision-Language Segmentation Fusion: Detection, Element, and Location in One-shot [18.80045630689047]
画像に有害なコンテンツが含まれているかどうかを同時に検出するゼロショットパイプラインを導入する。それぞれの重要な要素を特定し、それらの要素をピクセル精度のマスクでローカライズする。このシステムは、画像を数秒で処理し、既存のVLMにシームレスにプラグインし、きめ細かな説明可能な悪意のある画像モデレーションのための最初の実用的なツールを構成する。
論文参考訳（メタデータ） (2025-12-04T09:18:14Z)
VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety [3.1109025622085693]
マルチモーダル安全性を評価する包括的フレームワークであるVision Language Safety Understandingを提案する。 11種類の最先端モデルについて評価した結果, 系統的な共同理解の失敗が判明した。我々のフレームワークは、現在のモデルにおける共同画像テキスト理解とアライメントギャップの弱点を明らかにする。
論文参考訳（メタデータ） (2025-10-21T01:30:31Z)
Probabilistic Language-Image Pre-Training [58.2451360061285]
ProLIP(Probabilistic Language- Image Pre-Training)は,10億規模の画像テキストデータセット上に事前トレーニングされた最初の確率的VLMである。 ProLIPは、余分なパラメータなしで「不確実性トークン」によって不確実性を効率的に推定する。また,画像とテキストのペア間の分布的包摂関係と,原文とマスクの入力の関係を強制する新たな包摂損失も導入する。
論文参考訳（メタデータ） (2024-10-24T15:42:25Z)
TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens [9.453667770656644]
汎用, OCR, 接地作業において, 画像トークンの16倍の精度で, きめ細かな認識と, 最先端の性能を示すバイリンガルLVLMであるTextHawk2を提案する。我々は、LVLMコトレーニングを通じて視覚エンコーダを強化し、中国のOCRや接地のようなこれまで目に見えないタスクの可能性を解き放つ。我々はTextHawk2を複数のベンチマークで評価し、継続的に優れたパフォーマンスを提供し、同様のスケールのクローズドソースモデルより優れています。
論文参考訳（メタデータ） (2024-10-07T17:58:35Z)
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-07-02T16:02:25Z)
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。 ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文参考訳（メタデータ） (2024-02-14T06:01:44Z)
Turning a CLIP Model into a Scene Text Spotter [73.63953542526917]
我々は,大規模コントラスト言語-画像事前学習(CLIP)モデルの可能性を活用し,シーンテキストの検出とスポッティング作業を強化する。このバックボーンは、CLIPにおける視覚的プロンプト学習とクロスアテンションを利用して、画像とテキストベースの事前知識を抽出する。 FastTCM-CR50では、画像とテキストの埋め込みのシナジーを高めるために、インスタンス言語マッチングプロセスが導入されている。
論文参考訳（メタデータ） (2023-08-21T01:25:48Z)
Transferring Pre-trained Multimodal Representations with Cross-modal Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文参考訳（メタデータ） (2023-01-07T17:24:11Z)
BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文参考訳（メタデータ） (2022-08-12T16:48:10Z)
LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文参考訳（メタデータ） (2020-12-29T13:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。