論文の概要: Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations
- arxiv url: http://arxiv.org/abs/2503.21824v1
- Date: Wed, 26 Mar 2025 08:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:50.069175
- Title: Protecting Your Video Content: Disrupting Automated Video-based LLM Annotations
- Title(参考訳): ビデオコンテンツを保護する: 自動化されたビデオベースのLDMアノテーションを壊す
- Authors: Haitong Liu, Kuofeng Gao, Yang Bai, Jinmin Li, Jinxiao Shan, Tao Dai, Shu-Tao Xia,
- Abstract要約: ビデオベースの大規模言語モデル(ビデオベースのLLM)は、様々なビデオ理解タスクにおいて印象的なパフォーマンスを実現している。
この急速な進歩は、特に個人ビデオデータの不正使用に関して、重要なプライバシーとセキュリティ上の懸念を引き起こす。
本研究では,ラムブリングスとミュートという,知覚不能な対向性摂動を伴う2種類の保護ビデオ透かしを提案する。
- 参考スコア(独自算出の注目度): 48.94868867419852
- License:
- Abstract: Recently, video-based large language models (video-based LLMs) have achieved impressive performance across various video comprehension tasks. However, this rapid advancement raises significant privacy and security concerns, particularly regarding the unauthorized use of personal video data in automated annotation by video-based LLMs. These unauthorized annotated video-text pairs can then be used to improve the performance of downstream tasks, such as text-to-video generation. To safeguard personal videos from unauthorized use, we propose two series of protective video watermarks with imperceptible adversarial perturbations, named Ramblings and Mutes. Concretely, Ramblings aim to mislead video-based LLMs into generating inaccurate captions for the videos, thereby degrading the quality of video annotations through inconsistencies between video content and captions. Mutes, on the other hand, are designed to prompt video-based LLMs to produce exceptionally brief captions, lacking descriptive detail. Extensive experiments demonstrate that our video watermarking methods effectively protect video data by significantly reducing video annotation performance across various video-based LLMs, showcasing both stealthiness and robustness in protecting personal video content. Our code is available at https://github.com/ttthhl/Protecting_Your_Video_Content.
- Abstract(参考訳): 近年,ビデオベース大規模言語モデル (ビデオベースLLM) は,様々な映像理解タスクにおいて印象的な性能を達成している。
しかし、この急激な進歩は、特にビデオベースのLLMによる自動アノテーションにおける個人ビデオデータの不正使用に関して、重要なプライバシーとセキュリティ上の懸念を引き起こす。
これらの無許可のアノテーション付きビデオテキストペアは、テキスト・ツー・ビデオ生成などの下流タスクのパフォーマンス向上に使用することができる。
本研究では,無許可使用から個人用ビデオを保護するために,ラムブリングスとミュートという,知覚不能な逆方向の摂動を伴う2種類の保護ビデオ透かしを提案する。
具体的には、ビデオコンテンツとキャプションの不整合によってビデオアノテーションの品質を低下させる。
一方、ミュートはビデオベースのLCMに非常に短いキャプションを作成するよう促すよう設計されており、説明的な詳細は欠如している。
ビデオ透かし手法は様々なビデオベースLCM間でビデオアノテーション性能を著しく低下させ,個人のビデオコンテンツ保護におけるステルスネスとロバストネスを両立させることにより,映像データ保護を効果的に行うことを実証した。
私たちのコードはhttps://github.com/ttthhl/Protecting_Your_Video_Contentで利用可能です。
関連論文リスト
- Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension [83.00346826110041]
Video-RAGはトレーニング不要で費用対効果の高いパイプラインで、視覚的に整列した補助テキストを使って、モダリティ間のアライメントを促進する。
72Bモデルを用いた場合,Gemini-1.5-Pro や GPT-4o などのプロプライエタリモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-20T07:44:34Z) - Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner [53.671484175063995]
ビデオ-LLMはショートビデオの処理のために事前訓練されており、長いビデオコンテンツを理解するための幅広いアプリケーションを制限する。
固定ビデオエンコーダとアライメントプロジェクタの制約を回避するための代替ビデオトークン再構成手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T17:59:55Z) - Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision [24.568643475808564]
Video Self-Training with augmented Reasoning (Video-STaR)は、最初のビデオセルフトレーニングアプローチである。
Video-STaRは、ビデオインストラクションチューニングにラベル付きビデオデータセットを利用することができる。
論文 参考訳(メタデータ) (2024-07-08T17:59:42Z) - Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs [43.83499677307886]
ビデオウォーターマーキング(英語: Video Watermarking)は、ビデオベースの大規模言語モデルによって、未承認のアノテーションからビデオを保護する技術である。
ビデオによるLLMの誤使用を防止しつつ視聴体験を保存している。
論文 参考訳(メタデータ) (2024-07-02T16:34:14Z) - TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment [42.557643515992005]
ビデオの理解は、相当量のWebビデオテキストデータが利用できるにもかかわらず、依然として課題である。
ビデオ理解のための大規模言語モデル(LLM)を拡張する新しいアプローチであるテキストオンリー・プレアライメント(TOPA)を導入する。
論文 参考訳(メタデータ) (2024-05-22T18:35:10Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。