論文の概要: DIS-CO: Discovering Copyrighted Content in VLMs Training Data
- arxiv url: http://arxiv.org/abs/2502.17358v1
- Date: Mon, 24 Feb 2025 17:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:59.641944
- Title: DIS-CO: Discovering Copyrighted Content in VLMs Training Data
- Title(参考訳): DIS-CO: VLMsトレーニングデータにおける著作権内容の発見
- Authors: André V. Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li,
- Abstract要約: モデルの開発において,著作権付きコンテンツの含意を推測する新しいアプローチであるdis-COを提案する。
対象とする著作権物質から特定のフレームでVLMを何度もクエリすることで、dis-COは自由形式のテキスト補完を通じてコンテンツのアイデンティティを抽出する。
以上の結果から,dis-COは検出性能を著しく向上し,最良先行法の平均AUCをほぼ倍増させることがわかった。
- 参考スコア(独自算出の注目度): 24.15936677068714
- License:
- Abstract: How can we verify whether copyrighted content was used to train a large vision-language model (VLM) without direct access to its training data? Motivated by the hypothesis that a VLM is able to recognize images from its training corpus, we propose DIS-CO, a novel approach to infer the inclusion of copyrighted content during the model's development. By repeatedly querying a VLM with specific frames from targeted copyrighted material, DIS-CO extracts the content's identity through free-form text completions. To assess its effectiveness, we introduce MovieTection, a benchmark comprising 14,000 frames paired with detailed captions, drawn from films released both before and after a model's training cutoff. Our results show that DIS-CO significantly improves detection performance, nearly doubling the average AUC of the best prior method on models with logits available. Our findings also highlight a broader concern: all tested models appear to have been exposed to some extent to copyrighted content. Our code and data are available at https://github.com/avduarte333/DIS-CO
- Abstract(参考訳): 著作権付きコンテンツがトレーニングデータに直接アクセスすることなく、大規模視覚言語モデル(VLM)のトレーニングに使用されたかどうかを検証するには、どうすればよいのか?
提案手法は,VLMがトレーニングコーパスから画像を認識することができるという仮説に基づいて,モデルの開発中に著作権コンテンツを含むことを推測する新しいアプローチであるdis-COを提案する。
対象とする著作権物質から特定のフレームでVLMを何度もクエリすることで、dis-COは自由形式のテキスト補完を通じてコンテンツのアイデンティティを抽出する。
14,000フレームと詳細なキャプションを組み合わせたベンチマークであるMovieTectionを導入する。
以上の結果から,dis-COは検出性能を著しく向上し,ロジットが利用可能なモデルにおいて,最良先行手法の平均AUCを2倍近く向上させることがわかった。
テストされたすべてのモデルは、ある程度著作権のあるコンテンツに晒されたようだ。
私たちのコードとデータはhttps://github.com/avduarte333/DIS-COで利用可能です。
関連論文リスト
- T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - DE-COP: Detecting Copyrighted Content in Language Models Training Data [24.15936677068714]
著作権のあるコンテンツの一部がトレーニングに含まれているかどうかを判定する手法であるDE-COPを提案する。
BookTectionは165冊の書籍から抜粋を抽出したベンチマークで、モデルによるトレーニングの切り離しの後に作成します。
実験の結果、DE-COPは検出性能が9.6%向上した。
論文 参考訳(メタデータ) (2024-02-15T12:17:15Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文 参考訳(メタデータ) (2022-12-09T18:54:05Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。