論文の概要: SilhouetteTell: Practical Video Identification Leveraging Blurred Recordings of Video Subtitles
- arxiv url: http://arxiv.org/abs/2510.27179v1
- Date: Fri, 31 Oct 2025 05:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.985745
- Title: SilhouetteTell: Practical Video Identification Leveraging Blurred Recordings of Video Subtitles
- Title(参考訳): SilhouetteTell: ビデオ字幕のぼやけた録画を活用
- Authors: Guanchong Huang, Song Fang,
- Abstract要約: ビデオ視聴履歴は、ユーザのプロファイリングや広告に使用することができる。
ビデオ視聴履歴は、趣味、宗教的信念、政治的傾向、性的指向、健康状態を明らかにするために用いられる。
そこで我々はSilhouetteTellを提案する。SilhouetteTellは、空間的および時間的ドメイン情報をサブタイトルの時間的特徴に組み合わせた、新しいビデオ識別攻撃である。
- 参考スコア(独自算出の注目度): 1.1801596051153724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video identification attacks pose a significant privacy threat that can reveal videos that victims watch, which may disclose their hobbies, religious beliefs, political leanings, sexual orientation, and health status. Also, video watching history can be used for user profiling or advertising and may result in cyberbullying, discrimination, or blackmail. Existing extensive video inference techniques usually depend on analyzing network traffic generated by streaming online videos. In this work, we observe that the content of a subtitle determines its silhouette displayed on the screen, and identifying each subtitle silhouette also derives the temporal difference between two consecutive subtitles. We then propose SilhouetteTell, a novel video identification attack that combines the spatial and time domain information into a spatiotemporal feature of subtitle silhouettes. SilhouetteTell explores the spatiotemporal correlation between recorded subtitle silhouettes of a video and its subtitle file. It can infer both online and offline videos. Comprehensive experiments on off-the-shelf smartphones confirm the high efficacy of SilhouetteTell for inferring video titles and clips under various settings, including from a distance of up to 40 meters.
- Abstract(参考訳): ビデオ識別攻撃は、被害者が見ているビデオを明らかにする重要なプライバシー上の脅威となり、趣味、宗教的信念、政治的傾向、性的指向、健康状態を明らかにする可能性がある。
また、ビデオ視聴履歴はユーザーのプロファイリングや広告に利用でき、サイバーいじめ、差別、脅迫につながる可能性がある。
既存の広範なビデオ推論技術は、通常、オンラインビデオのストリーミングによって生成されたネットワークトラフィックを分析することに依存する。
本研究では,サブタイトルの内容が画面上に表示されるシルエットを決定することを観察し,各サブタイトルのシルエットを特定することで,連続する2つのサブタイトル間の時間差も導出する。
次に、空間的・時間的領域情報をサブタイトルシルエットの時空間的特徴に組み合わせた、新しいビデオ識別攻撃であるSilhouetteTellを提案する。
SilhouetteTellは、録画されたビデオの字幕シルエットとその字幕ファイル間の時空間的相関を探索する。
オンラインビデオとオフラインビデオの両方を推測できる。
市販スマートフォンの総合的な実験では、最大40メートルの距離を含む様々な設定下でビデオタイトルやクリップを推測するSilhouetteTellの高効果が確認されている。
関連論文リスト
- Controllable Hybrid Captioner for Improved Long-form Video Understanding [1.2035789357951119]
ビデオデータは極めて密度が高く、高次元である。
テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。
静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文 参考訳(メタデータ) (2025-07-22T22:09:00Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。