論文の概要: QwenSafe: Multimodal Content Rating Description Identification via Preference-Aligned VLMs
- arxiv url: http://arxiv.org/abs/2605.20584v1
- Date: Wed, 20 May 2026 00:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.420931
- Title: QwenSafe: Multimodal Content Rating Description Identification via Preference-Aligned VLMs
- Title(参考訳): QwenSafe: 優先度対応VLMによるマルチモーダルコンテンツレーティング記述識別
- Authors: Dishanika Denipitiyage, Aruna Seneviratne, Suranga Seneviratne,
- Abstract要約: モバイルアプリのマーケットプレースでは、開発者がCRD(Standardized Content rating Descriptor)を公開して、潜在的に機密性や制限されたコンテンツについてユーザに通知する必要がある。
アプリコンテンツのマルチモーダルな性質のため、これらの開示の正確性と一貫性を確保することは依然として困難である。
QwenSafeは、アプリメタデータとスクリーンショットを共同で推論することで、Appleが定義したCRDの存在を自動的に識別するように設計されたビジョンランゲージモデル(VLM)である。
- 参考スコア(独自算出の注目度): 9.437319468752719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile app marketplaces require developers to disclose standardized content rating descriptors (CRDs) to inform users about potentially sensitive or restricted content. Ensuring the accuracy and consistency of these disclosures remains challenging due to the multimodal nature of app content, which spans textual descriptions and visual interfaces. In this paper, we present QwenSafe, a Vision-Language Model (VLM) designed to automatically identify the presence of Apple-defined CRDs by jointly reasoning over app metadata and screenshots. To enable scalable training for this task, we introduce metadata2CRD, a data-construction pipeline that synthesizes descriptor-aligned question-answer pairs by combining app descriptions, screenshots, and formal descriptor definitions. We adapt Qwen3-VL-8B using supervised fine-tuning followed by Direct Preference Optimization (DPO) to align model predictions with descriptor-specific evidence and explanations across visual and textual modalities. We evaluate QwenSafe on 12 Apple-defined content rating descriptors and compare it against state-of-the-art vision-language models, including Qwen3-VL, LLaVA-1.6, and Gemini-2.5-Flash. QwenSafe consistently outperforms all baselines in binary CRD classification, achieving improvements in positive-class recall of 111.8%, 36.1%, and 2.1%, respectively. Our results demonstrate that descriptor-aware multimodal alignment substantially improves automated content classification and highlights the potential of vision-language models to support scalable and consistent content rating in mobile app marketplaces.
- Abstract(参考訳): モバイルアプリのマーケットプレースでは、開発者がCRD(Standardized Content rating Descriptor)を公開して、潜在的に機密性や制限されたコンテンツについてユーザに通知する必要がある。
これらの開示の正確性と一貫性の確保は、テキスト記述とビジュアルインターフェースにまたがるアプリコンテンツのマルチモーダルな性質のため、依然として困難である。
本稿では、アプリメタデータとスクリーンショットを共同で推論することで、Appleが定義したCRDの存在を自動的に識別する、ビジョンランゲージモデル(VLM)であるQwenSafeを提案する。
このタスクのスケーラブルなトレーニングを実現するために,アプリケーション記述,スクリーンショット,形式的な記述子定義を組み合わせることで,記述子対応の問合せペアを合成するデータ構築パイプラインであるMessage2CRDを導入する。
教師付き微調整を用いてQwen3-VL-8Bを適応し、続いてDPO(Direct Preference Optimization)を用いて、モデル予測と記述子固有のエビデンスと、視覚的およびテキスト的モダリティをまたいだ説明とを整合させる。
我々は、Appleが定義した12のコンテンツレーティング記述子についてQwenSafeを評価し、Qwen3-VL、LLaVA-1.6、Gemini-2.5-Flashといった最先端のビジョン言語モデルと比較した。
QwenSafeはバイナリCRD分類におけるすべてのベースラインを一貫して上回り、それぞれ111.8%、36.1%、および2.1%の正のクラスリコールを達成している。
以上の結果から,マルチモーダルアライメントによって自動コンテンツ分類が大幅に向上し,モバイルアプリのマーケットプレースにおいて,スケーラブルで一貫性のあるコンテンツレーティングをサポートする視覚言語モデルの可能性を強調した。
関連論文リスト
- Shape and Substance: Dual-Layer Side-Channel Attacks on Local Vision-Language Models [2.1198879079315573]
デバイス上のビジョンランゲージモデル(VLM)は、ローカル実行を通じてデータのプライバシを約束する。
動的高分解能前処理へのアーキテクチャシフトは,アルゴリズム的なサイドチャネルを導入している。
ローカルなVLMに対する2層アタック・フレームワークを実演する。
論文 参考訳(メタデータ) (2026-03-26T12:53:49Z) - A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata [0.0]
本研究では,モバイルUIとセマンティック情報を統合した軽量な視覚言語フレームワークを提案する。
このフレームワークはMobileNetV3を組み合わせてUIレイアウトから視覚的特徴を抽出し、DistilBERTはテキストの特徴を抽出する。
提案手法は平均絶対誤差(MAE)、平均二乗誤差(RMSE)、平均二乗誤差(MSE)、決定係数(R2)、ピアソン相関を用いて評価する。
論文 参考訳(メタデータ) (2026-02-24T04:17:50Z) - CAMP-VQA: Caption-Embedded Multimodal Perception for No-Reference Quality Assessment of Compressed Video [9.172799792564009]
本稿では,大規模モデルの意味理解機能を活用した新しいNR-VQAフレームワークであるCAMP-VQAを提案する。
本手法では,フレーム間変動から抽出したキーフラグメントを統合する品質対応ビデオメタデータ機構を提案する。
我々のモデルは既存のNR-VQA法を一貫して上回り、手作業の細かいアノテーションを使わずに精度の向上を実現している。
論文 参考訳(メタデータ) (2025-11-10T16:37:47Z) - IF-VidCap: Can Video Caption Models Follow Instructions? [44.2412700621584]
制御可能なビデオキャプションを評価するための新しいベンチマークであるIF-VidCapを紹介する。
IF-VidCapには、フォーマットの正しさとコンテンツの正しさの2つの側面でキャプションを評価する、体系的なフレームワークが組み込まれている。
論文 参考訳(メタデータ) (2025-10-21T15:25:08Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Gen-Z: Generative Zero-Shot Text Classification with Contextualized
Label Descriptions [50.92702206798324]
ゼロショットテキスト分類のための生成的プロンプトフレームワークを提案する。
GEN-Zはラベルの自然言語記述に基づく入力テキストのLM可能性を測定する。
データソースの文脈化によるゼロショット分類は、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。