論文の概要: Zero-shot image privacy classification with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.09253v1
- Date: Fri, 10 Oct 2025 10:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.937764
- Title: Zero-shot image privacy classification with Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルを用いたゼロショット画像プライバシ分類
- Authors: Alina Elena Baia, Alessio Xompero, Andrea Cavallaro,
- Abstract要約: プライバシベンチマークにより,トップ3のオープンソースVision-Language Models (VLM)を評価した。
以上の結果から,VLMはパラメータ数や推論が遅いという点では資源集約性が高いにもかかわらず,プライバシ予測の精度において,より小型のモデルに遅れがあることが示唆された。
- 参考スコア(独自算出の注目度): 20.541622578981272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While specialized learning-based models have historically dominated image privacy prediction, the current literature increasingly favours adopting large Vision-Language Models (VLMs) designed for generic tasks. This trend risks overlooking the performance ceiling set by purpose-built models due to a lack of systematic evaluation. To address this problem, we establish a zero-shot benchmark for image privacy classification, enabling a fair comparison. We evaluate the top-3 open-source VLMs, according to a privacy benchmark, using task-aligned prompts and we contrast their performance, efficiency, and robustness against established vision-only and multi-modal methods. Counter-intuitively, our results show that VLMs, despite their resource-intensive nature in terms of high parameter count and slower inference, currently lag behind specialized, smaller models in privacy prediction accuracy. We also find that VLMs exhibit higher robustness to image perturbations.
- Abstract(参考訳): 専門的な学習ベースのモデルは歴史的に画像プライバシーの予測を支配してきたが、現在の文献では、一般的なタスク用に設計された大きな視覚言語モデル(VLM)を採用することを好んでいる。
この傾向は、体系的な評価の欠如により、目的モデルによって設定された性能天井を見渡すリスクを負う。
この問題に対処するため、画像プライバシ分類のためのゼロショットベンチマークを構築し、公正な比較を可能にする。
プライバシベンチマークによると、トップ3のオープンソースVLMをタスク整合プロンプトを用いて評価し、その性能、効率、堅牢性を、確立されたビジョンオンリーおよびマルチモーダルメソッドと対比する。
この結果から,VLMは,高パラメータ数と低推論の点で資源集約性に欠けるにもかかわらず,プライバシ予測の精度において,より小型のモデルに遅れがあることが示唆された。
また、VLMは画像摂動に対して高い堅牢性を示す。
関連論文リスト
- Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models [62.979954692036685]
PRSSを導入し, 拡散モデルにおけるクラス化自由誘導手法を改良し, 即時再編成とセマンティック・プロンプト・サーチを統合した。
当社のアプローチは一貫してプライバシーとユーティリティのトレードオフを改善し、新たな最先端技術を確立します。
論文 参考訳(メタデータ) (2025-04-25T02:51:23Z) - From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。
CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文 参考訳(メタデータ) (2025-03-08T16:13:18Z) - Are foundation models for computer vision good conformal predictors? [17.53651859360999]
コンフォーマル予測(CP)に基づく視覚・視覚言語基礎モデルの振る舞いについて検討する。
この結果から, 基礎モデルはコンフォーマライズ手順, 特にビジョントランスフォーマーの統合に適していることが判明した。
また、下流タスクへのビジョン・ランゲージ・モデル(VLM)の少数ショット適応が、ゼロショット予測と比較してコンフォメーションスコアを高めていることを示す。
論文 参考訳(メタデータ) (2024-12-08T22:05:38Z) - Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Private Attribute Inference from Images with Vision-Language Models [2.9373912230684565]
視覚言語モデル(VLM)は、画像とテキストの両方を理解することができる。
我々は7つの最先端のVLMを評価し、最大77.6%の精度で様々な個人属性を推測できることを発見した。
モデルの一般的な能力で精度がスケールすることが観察され、将来のモデルはより強い推論の敵として誤用される可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-16T14:42:49Z) - Content-based Graph Privacy Advisor [38.733077459065704]
本稿では,画像のプライバシを予測するための手がかりとして,シーン情報とオブジェクトの濃度を用いた画像プライバシー分類器を提案する。
我々のグラフプライバシ・アドバイザ(GPA)モデルは、最先端のグラフモデルを単純化し、その性能を改善する。
論文 参考訳(メタデータ) (2022-10-20T11:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。