論文の概要: How Far Are VLMs from Privacy Awareness in the Physical World? An Empirical Study
- arxiv url: http://arxiv.org/abs/2605.05340v2
- Date: Fri, 08 May 2026 01:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.928316
- Title: How Far Are VLMs from Privacy Awareness in the Physical World? An Empirical Study
- Title(参考訳): 物理世界におけるVLMのプライバシ意識はどこまであるのか? : 実証的研究
- Authors: Junran Wang, Xinjie Shen, Zehao Jin, Pan Li,
- Abstract要約: VLM(Vision-Language Models)は、エンボディされたアシスタントのための自律的な認知コアとして、ますます多くデプロイされている。
ImmersedPrivacyはリアルな物理的環境をシミュレートするインタラクティブな音声視覚評価フレームワークである。
12の最先端モデルを評価すると、一貫した欠点が明らかになる。
- 参考スコア(独自算出の注目度): 7.537653216205245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision-Language Models (VLMs) are increasingly deployed as autonomous cognitive cores for embodied assistants, evaluating their privacy awareness in physical environments becomes critical. Unlike digital chatbots, these agents operate in intimate spaces, such as homes and hospitals, where they possess the physical agency to observe and manipulate privacy-sensitive information and artifacts. However, current benchmarks remain limited to unimodal, text-based representations that cannot capture the demands of real-world settings. To bridge this gap, we present ImmersedPrivacy, an interactive audio-visual evaluation framework that simulates realistic physical environments using a Unity-based simulator. ImmersedPrivacy evaluates physically grounded privacy awareness across three progressive tiers that test a model's ability to identify sensitive items in cluttered scenes, adapt to shifting social contexts, and resolve conflicts between explicit commands and inferred privacy constraints. Our evaluation of 12 state-of-the-art models reveals consistent deficits. In cluttered scenes, all models exhibit monotonic performance decay as scene complexity grows due to perceptual deficit. When social context shifts, no model exceed 65% selection accuracy. Under conflicting commands, the best model gemini-3.1-pro perfectly balances task completion and privacy preservation in only 51% of cases. These findings reveal that current VLMs in the physical world suffer from perceptual fragility and fail to let their knowledge of privacy cues govern their situated behavior. Our code and data is available at https://github.com/immersed-privacy/immersed-privacy .
- Abstract(参考訳): VLM(Vision-Language Models)は、エンボディされたアシスタントのための自律的な認知コアとしてますます多くデプロイされているため、物理的な環境でのプライバシ意識を評価することが重要になる。
デジタルチャットボットとは異なり、これらのエージェントは、プライバシーに敏感な情報やアーティファクトを監視・操作するための物理的機関を持つ家庭や病院などの近親密な空間で機能する。
しかし、現在のベンチマークは、実世界の設定の要求を捉えられない、平凡なテキストベースの表現に限られている。
このギャップを埋めるために、Unityベースのシミュレーターを用いてリアルな物理的環境をシミュレートするインタラクティブなオーディオ視覚評価フレームワークであるImmersedPrivacyを提案する。
ImmersedPrivacyは、3つのプログレッシブ層にまたがって物理的に根ざしたプライバシー意識を評価し、それは、散らかったシーンで機密事項を識別し、社会的コンテキストの変化に適応し、明示的なコマンドと推論されたプライバシー制約の間の衝突を解決する。
12の最先端モデルを評価すると、一貫した欠点が明らかになる。
散らばったシーンでは、全てのモデルが知覚障害によりシーンの複雑さが増大するにつれて単調なパフォーマンス劣化を示す。
社会的文脈が変化すると、選択精度が65%を超えるモデルはない。
矛盾するコマンドの下では、最高のモデル gemini-3.1-pro はタスクの完了とプライバシの保存を51%のケースで完全にバランスさせる。
これらの結果から、現在の物理世界のVLMは知覚の脆弱さに悩まされ、プライバシーに関する知識が彼らの位置する行動を管理するのに失敗していることが明らかとなった。
私たちのコードとデータはhttps://github.com/immersed-privacy/immersed-privacy で利用可能です。
関連論文リスト
- VoxPrivacy: A Benchmark for Evaluating Interactional Privacy of Speech Language Models [25.266028200777317]
音声言語モデル(SLM)は、ユーザが適切に情報の流れを管理するために区別されることが期待される。
現在のSLMベンチマークでは、対話能力をテストするが、話者識別は見落としている。
我々は、SLMにおけるインタラクションプライバシを評価するために設計された最初のベンチマークであるVoxPrivacyを紹介する。
論文 参考訳(メタデータ) (2026-01-27T06:22:14Z) - Privacy Collapse: Benign Fine-Tuning Can Break Contextual Privacy in Language Models [47.866853046761044]
トレーニングデータの多様で微妙なパターンは、コンテキストプライバシを低下させる可能性がある。
微調整されたモデルは、コンテキストプライバシの規範を推論する能力を失う。
この結果から, 現状の安全性評価に重大なギャップがあることが判明した。
論文 参考訳(メタデータ) (2026-01-21T17:53:06Z) - Single-Pixel Vision-Language Model for Intrinsic Privacy-Preserving Behavioral Intelligence [55.512671026669516]
安全な環境モニタリングを再現する新しいフレームワークSP-VLM(Single-Pixel Vision-Language Model)を提案する。
それは本質的に低次元の1ピクセルのモダリティを通して人間のダイナミクスを捉えることによって、固有のプライバシ・バイ・デザインを実現する。
いずれにせよ,SP-VLMは意味ある行動意味を抽出し,ロバストな異常検出,数え方,行動理解を可能にしている。
論文 参考訳(メタデータ) (2026-01-21T09:11:26Z) - Measuring Physical-World Privacy Awareness of Large Language Models: An Evaluation Benchmark [10.645183619391135]
EAPrivacyは、エンボディエージェントの物理世界のプライバシー意識を定量化するために設計された総合評価ベンチマークである。
EAPrivacyは、4層にわたる手続き的に生成されたシナリオを使用して、エージェントの機密性のあるオブジェクト処理能力のテスト、環境の変化への適応、タスクの実行とプライバシの制約のバランス、社会的規範との矛盾の解決を行う。
論文 参考訳(メタデータ) (2025-09-27T23:39:56Z) - FED-PsyAU: Privacy-Preserving Micro-Expression Recognition via Psychological AU Coordination and Dynamic Facial Motion Modeling [14.30453182275959]
マイクロ表現(ME)は短く、低強度で、しばしば局所的な表情である。
彼らは、犯罪の尋問や心理学的カウンセリングのような文脈で、個人が隠そうとする真の感情を明らかにするかもしれない。
ME認識(MER)は、小さなサンプルサイズや微妙な特徴など、効率的なモデリングを妨げる課題に直面している。
論文 参考訳(メタデータ) (2025-07-28T06:42:15Z) - Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。