論文の概要: Auditing M-LLMs for Privacy Risks: A Synthetic Benchmark and Evaluation Framework
- arxiv url: http://arxiv.org/abs/2511.03248v1
- Date: Wed, 05 Nov 2025 07:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.371459
- Title: Auditing M-LLMs for Privacy Risks: A Synthetic Benchmark and Evaluation Framework
- Title(参考訳): プライバシリスクに対するM-LLMの評価: 総合ベンチマークと評価フレームワーク
- Authors: Junhao Li, Jiahao Chen, Zhou Feng, Chunyi Zhou,
- Abstract要約: PRISMは、クロスモーダルなプライバシーリスクを評価するために設計された大規模な総合ベンチマークである。
PRISMは、最初のマルチモーダル、多次元、微細な合成データセットである。
PRISM上での6つのM-LLMの推論能力を評価する。
- 参考スコア(独自算出の注目度): 7.493288948235459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multi-modal Large Language Models (M-LLMs) have demonstrated a powerful ability to synthesize implicit information from disparate sources, including images and text. These resourceful data from social media also introduce a significant and underexplored privacy risk: the inference of sensitive personal attributes from seemingly daily media content. However, the lack of benchmarks and comprehensive evaluations of state-of-the-art M-LLM capabilities hinders the research of private attribute profiling on social media. Accordingly, we propose (1) PRISM, the first multi-modal, multi-dimensional and fine-grained synthesized dataset incorporating a comprehensive privacy landscape and dynamic user history; (2) an Efficient evaluation framework that measures the cross-modal privacy inference capabilities of advanced M-LLM. Specifically, PRISM is a large-scale synthetic benchmark designed to evaluate cross-modal privacy risks. Its key feature is 12 sensitive attribute labels across a diverse set of multi-modal profiles, which enables targeted privacy analysis. These profiles are generated via a sophisticated LLM agentic workflow, governed by a prior distribution to ensure they realistically mimic social media users. Additionally, we propose a Multi-Agent Inference Framework that leverages a pipeline of specialized LLMs to enhance evaluation capabilities. We evaluate the inference capabilities of six leading M-LLMs (Qwen, Gemini, GPT-4o, GLM, Doubao, and Grok) on PRISM. The comparison with human performance reveals that these MLLMs significantly outperform in accuracy and efficiency, highlighting the threat of potential privacy risks and the urgent need for robust defenses.
- Abstract(参考訳): マルチモーダル大規模言語モデル(M-LLM)の最近の進歩は、画像やテキストを含む異なるソースから暗黙的な情報を合成する強力な能力を示している。
ソーシャルメディアから得られたこれらのリソース豊富なデータは、重要かつ未調査のプライバシーリスクももたらしている: 一見日常的なメディアコンテンツから、機密性の高い個人属性を推測する。
しかし、ベンチマークの欠如と最先端のM-LLM機能の包括的な評価は、ソーシャルメディア上での個人属性プロファイリングの研究を妨げる。
そこで本研究では,(1)包括的プライバシランドスケープと動的ユーザ履歴を取り入れた,最初のマルチモーダル,多次元,微細な合成データセットであるPRISM,(2)高度なM-LLMのクロスモーダルプライバシ推論能力を測定する効率的な評価フレームワークを提案する。
具体的には、PRISMは、クロスモーダルなプライバシーリスクを評価するために設計された大規模な総合ベンチマークである。
その重要な機能は、さまざまなマルチモーダルプロファイルにまたがる12の機密属性ラベルであり、ターゲットのプライバシー分析を可能にする。
これらのプロファイルは、ソーシャルメディアのユーザをリアルに模倣することを保証するために、事前配布によって管理される洗練されたLLMエージェントワークフローを介して生成される。
さらに,評価能力を高めるために,特殊なLLMのパイプラインを利用するマルチエージェント推論フレームワークを提案する。
PRISM上の6つの主要なM-LLM(Qwen, Gemini, GPT-4o, GLM, Doubao, Grok)の推論能力を評価する。
人間のパフォーマンスと比較すると、これらのMLLMは精度と効率において著しく優れており、潜在的なプライバシーリスクの脅威と堅牢な防御の必要性が浮き彫りになっている。
関連論文リスト
- On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - The Man Behind the Sound: Demystifying Audio Private Attribute Profiling via Multimodal Large Language Model Agents [21.736748922886555]
本研究は,マルチモーダル大言語モデル(MLLM)に関連する新たなプライバシーリスクを明らかにする。
オーディオ・プライベート・属性・プロファイリングと呼ぶ手法であるオーディオ・データから機密性の高い個人属性を推測する能力は重大な脅威となる。
音声言語モデル(ALM)と大規模言語モデル(LLM)の相補的な長所を利用して推論能力を向上させるハイブリッドマルチエージェントフレームワークであるGiftsを提案する。
論文 参考訳(メタデータ) (2025-07-14T07:51:56Z) - PBa-LLM: Privacy- and Bias-aware NLP using Named-Entity Recognition (NER) [45.870212237420226]
本研究では,Large Language Models(LLMs)のプライバシ保護トレーニングを容易にするために,NER(Named-Entity Recognition)の使用について検討する。
我々は,NER技術を用いて個人識別や地理的位置情報などのテキストデータ中の機密情報を匿名化するフレームワークを提案する。
この研究は2つの言語モデル(BERTとRoBERTa)と6つの匿名化アルゴリズム(Presidio、FLAIR、BERT、および異なるバージョンのGPT)を24,000の候補プロファイルのデータベースに適用した。
論文 参考訳(メタデータ) (2025-06-30T14:42:49Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Beyond Text: Unveiling Privacy Vulnerabilities in Multi-modal Retrieval-Augmented Generation [17.859942323017133]
MRAGのプライバシーの脆弱性を視覚言語と音声言語にまたがって初めて体系的に分析する。
実験の結果,LMMは検索した内容に類似した出力を直接生成し,センシティブな情報を間接的に公開する記述を生成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-20T05:37:22Z) - DePrompt: Desensitization and Evaluation of Personal Identifiable Information in Large Language Model Prompts [11.883785681042593]
DePromptは、プロンプトのための脱感作保護および有効性評価フレームワークである。
我々は、コンテキスト属性を統合し、プライバシタイプを定義し、高精度なPIIエンティティ識別を実現する。
私たちのフレームワークはプロンプトに適応可能で、テキストのユーザビリティに依存したシナリオに拡張できます。
論文 参考訳(メタデータ) (2024-08-16T02:38:25Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。