論文の概要: Assessing Visual Privacy Risks in Multimodal AI: A Novel Taxonomy-Grounded Evaluation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.23827v1
- Date: Sun, 28 Sep 2025 12:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.472482
- Title: Assessing Visual Privacy Risks in Multimodal AI: A Novel Taxonomy-Grounded Evaluation of Vision-Language Models
- Title(参考訳): マルチモーダルAIにおける視覚的プライバシリスクの評価:ビジョンランゲージモデルに基づく新しい分類学的評価
- Authors: Efthymios Tsaprazlis, Tiantian Feng, Anil Ramakrishna, Rahul Gupta, Shrikanth Narayanan,
- Abstract要約: 包括的で多レベルなビジュアルプライバシ分類を導入します。
いくつかの最先端のビジョン・ランゲージ・モデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 55.23884055923282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence have profoundly transformed the technological landscape in recent years. Large Language Models (LLMs) have demonstrated impressive abilities in reasoning, text comprehension, contextual pattern recognition, and integrating language with visual understanding. While these advances offer significant benefits, they also reveal critical limitations in the models' ability to grasp the notion of privacy. There is hence substantial interest in determining if and how these models can understand and enforce privacy principles, particularly given the lack of supporting resources to test such a task. In this work, we address these challenges by examining how legal frameworks can inform the capabilities of these emerging technologies. To this end, we introduce a comprehensive, multi-level Visual Privacy Taxonomy that captures a wide range of privacy issues, designed to be scalable and adaptable to existing and future research needs. Furthermore, we evaluate the capabilities of several state-of-the-art Vision-Language Models (VLMs), revealing significant inconsistencies in their understanding of contextual privacy. Our work contributes both a foundational taxonomy for future research and a critical benchmark of current model limitations, demonstrating the urgent need for more robust, privacy-aware AI systems.
- Abstract(参考訳): 人工知能は近年、テクノロジーの状況を大きく変えてきた。
大規模言語モデル(LLM)は、推論、テキスト理解、文脈パターン認識、および視覚的理解を伴う言語の統合において、印象的な能力を示している。
これらの進歩は大きな利点をもたらすが、プライバシの概念を把握できるモデルの能力に限界があることも明らかにしている。
したがって、これらのモデルがプライバシー原則を理解し、強制できるかどうか、特にそのようなタスクをテストするためのリソースが不足していることを考えると、決定することに大きな関心がある。
本研究は,これらの新興技術の能力に法的枠組みがどのような影響を及ぼすかを検討することで,これらの課題に対処するものである。
この目的のために、我々は、既存の研究ニーズと将来の研究ニーズにスケーラブルで適応できるように設計された、幅広いプライバシー問題を捉えた、包括的で多レベルなVisual Privacy Taxonomyを導入しました。
さらに,最新技術であるVLM(Vision-Language Models)の能力を評価し,コンテキストプライバシの理解に矛盾があることを明らかにする。
私たちの研究は、将来の研究のための基礎的な分類と、現在のモデル制限のクリティカルベンチマークの両方に貢献し、より堅牢でプライバシーに配慮したAIシステムに対する緊急の必要性を示しています。
関連論文リスト
- A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook [85.43403500874889]
Retrieval-augmented Generation (RAG) は人工知能(AI)において重要な技術である。
具体化されたAIのためのRAGの最近の進歩は、特に計画、タスク実行、マルチモーダル知覚、インタラクション、特殊ドメインの応用に焦点を当てている。
論文 参考訳(メタデータ) (2025-03-23T10:33:28Z) - Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。
我々は、競合する言語と視覚言語モデルを総合的に評価する。
文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T03:53:37Z) - Exploring the Privacy Protection Capabilities of Chinese Large Language Models [19.12726985060863]
言語システムにおけるプライバシ評価のための3段階のプログレッシブフレームワークを考案した。
我々の主な目的は、大規模言語モデルの個人情報に対する感度を包括的に評価することである。
既存の中国の大規模言語モデルは、プライバシー保護の欠点を普遍的に示している。
論文 参考訳(メタデータ) (2024-03-27T02:31:54Z) - Privacy in Foundation Models: A Conceptual Framework for System Design [3.438211531047665]
ファンデーションモデルは、大きな課題と素晴らしい機会の両方を示します。
現在、プライバシー評価プロセスが包含すべき技術的問題と非技術的問題の両方の包括的範囲について合意が得られていない。
本稿では、複数の視点から様々な責任あるAIパターンを統合する新しい概念的枠組みを紹介する。
論文 参考訳(メタデータ) (2023-11-13T00:44:06Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。