論文の概要: PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language Interpretation
- arxiv url: http://arxiv.org/abs/2410.22623v1
- Date: Wed, 30 Oct 2024 01:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:49.371771
- Title: PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language Interpretation
- Title(参考訳): PV-VTT:ミッション特異的異常検出と自然言語解釈のためのプライバシー中心データセット
- Authors: Ryozo Masukawa, Sanggeon Yun, Yoshiki Yamaguchi, Mohsen Imani,
- Abstract要約: プライバシー侵害の特定を目的とした,ユニークなマルチモーダルデータセットであるPV-VTT(Privacy Violation Video To Text)を提案する。
PV-VTTは、シナリオ内のビデオとテキストの両方に詳細なアノテーションを提供する。
このプライバシー重視のアプローチにより、研究者はこのデータセットを、保護された機密性を保護しながら使用することができる。
- 参考スコア(独自算出の注目度): 5.0923114224599555
- License:
- Abstract: Video crime detection is a significant application of computer vision and artificial intelligence. However, existing datasets primarily focus on detecting severe crimes by analyzing entire video clips, often neglecting the precursor activities (i.e., privacy violations) that could potentially prevent these crimes. To address this limitation, we present PV-VTT (Privacy Violation Video To Text), a unique multimodal dataset aimed at identifying privacy violations. PV-VTT provides detailed annotations for both video and text in scenarios. To ensure the privacy of individuals in the videos, we only provide video feature vectors, avoiding the release of any raw video data. This privacy-focused approach allows researchers to use the dataset while protecting participant confidentiality. Recognizing that privacy violations are often ambiguous and context-dependent, we propose a Graph Neural Network (GNN)-based video description model. Our model generates a GNN-based prompt with image for Large Language Model (LLM), which deliver cost-effective and high-quality video descriptions. By leveraging a single video frame along with relevant text, our method reduces the number of input tokens required, maintaining descriptive quality while optimizing LLM API-usage. Extensive experiments validate the effectiveness and interpretability of our approach in video description tasks and flexibility of our PV-VTT dataset.
- Abstract(参考訳): ビデオ犯罪検出はコンピュータビジョンと人工知能の重要な応用である。
しかし、既存のデータセットは主に、ビデオクリップ全体を分析して重大犯罪を検出することに焦点を当てており、多くの場合、これらの犯罪を予防する可能性のある前身的活動(プライバシー侵害)を無視している。
この制限に対処するために、プライバシー侵害を特定するためのユニークなマルチモーダルデータセットであるPV-VTT(Privacy Violation Video To Text)を提案する。
PV-VTTは、シナリオ内のビデオとテキストの両方に詳細なアノテーションを提供する。
ビデオ内の個人のプライバシーを確保するために、ビデオの特徴ベクトルのみを提供し、生のビデオデータの公開を避けます。
このプライバシー重視のアプローチにより、研究者はこのデータセットを、保護された機密性を保護しながら使用することができる。
プライバシー侵害は曖昧で文脈に依存しないことが多いことを認識し,グラフニューラルネットワーク(GNN)に基づく映像記述モデルを提案する。
本モデルでは,GNNをベースとしたLarge Language Model (LLM) 画像のプロンプトを生成する。
関連テキストとともに単一のビデオフレームを活用することにより, LLM API使用率を最適化しつつ, 記述品質を維持しつつ, 必要な入力トークン数を削減できる。
ビデオ記述作業におけるアプローチの有効性と解釈性,およびPV-VTTデータセットの柔軟性を検証する。
関連論文リスト
- ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models [53.9661582975843]
Video Temporal Groundingは、特定のセグメントを、与えられた自然言語クエリに対応する未トリミングビデオ内でグラウンドすることを目的としている。
既存のVTG手法は、主に教師付き学習と広範囲な注釈付きデータに依存しており、それは労働集約的であり、人間の偏見に起因している。
本稿では,ビデオ対話大言語モデル(LLM)をゼロショットビデオ時間グラウンドに利用する新しい手法ChatVTGを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:27:56Z) - CausalVE: Face Video Privacy Encryption via Causal Video Prediction [13.577971999457164]
ビデオやライブストリーミングのWebサイトの普及に伴い、公開対面のビデオ配信とインタラクションは、プライバシー上のリスクを増大させる。
これらの欠点に対処するニューラルネットワークフレームワークCausalVEを提案する。
我々のフレームワークは、公開ビデオの拡散において優れたセキュリティを有し、定性的、量的、視覚的な観点から最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-09-28T10:34:22Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Privacy Protectability: An Information-theoretical Approach [4.14084373472438]
本稿では,ビデオストリームをどの程度保護できるかを特徴付けるために,新たなメートル法であるテクストプライバシー保護法を提案する。
プライバシ保護性の定義は情報理論に根ざし,メトリックを推定する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-25T04:06:55Z) - Large-capacity and Flexible Video Steganography via Invertible Neural
Network [60.34588692333379]
大容量フレキシブルビデオステレオグラフィーネットワーク(LF-VSN)を提案する。
大容量のために、単一の可逆ニューラルネットワーク(INN)を介して複数のビデオの隠蔽と回復を行う可逆パイプラインを提案する。
フレキシビリティのために、異なる受信機が特定の秘密映像を同じカバービデオから特定のキーを介して復元できるキー制御可能なスキームを提案する。
論文 参考訳(メタデータ) (2023-04-24T17:51:35Z) - SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。
自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。
本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T02:56:40Z) - Robust Privacy-Preserving Motion Detection and Object Tracking in
Encrypted Streaming Video [39.453548972987015]
本稿では,暗号化された監視ビデオのビットストリームに対して,効率的かつ堅牢なプライバシー保護動作検出と複数物体追跡手法を提案する。
提案手法は, 暗号化・圧縮された領域における既存の作業と比較して, 最高の検出・追跡性能を実現する。
我々の手法は、カメラの動き/ジッタ、動的背景、影など、様々な課題を伴う複雑な監視シナリオで効果的に利用することができる。
論文 参考訳(メタデータ) (2021-08-30T11:58:19Z) - Privid: Practical, Privacy-Preserving Video Analytics Queries [6.7897713298300335]
本稿では,ビデオ分析における差分プライバシー(DP)の新たな概念として,$(rho,K,epsilon)$-event-duration Privacyを提案する。
プライビッドは,非私的システムの79~99%以内のアキュラシーを達成している。
論文 参考訳(メタデータ) (2021-06-22T22:25:08Z) - Privacy-Preserving Video Classification with Convolutional Neural
Networks [8.51142156817993]
本稿では,畳み込みニューラルネットワークを用いた単一フレーム方式のビデオ分類のプライバシ保護実装を提案する。
個人の感情認識への応用として提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-02-06T05:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。