論文の概要: Bridging the Copyright Gap: Do Large Vision-Language Models Recognize and Respect Copyrighted Content?
- arxiv url: http://arxiv.org/abs/2512.21871v1
- Date: Fri, 26 Dec 2025 05:09:55 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:52:53.287448
- Title: Bridging the Copyright Gap: Do Large Vision-Language Models Recognize and Respect Copyrighted Content?
- Title(参考訳): 著作権のギャップを埋める: 大規模視覚言語モデルは著作権のあるコンテンツを認識し尊重するか?
- Authors: Naen Xu, Jinghuai Zhang, Changjiang Li, Hengyu An, Chunyi Zhou, Jun Wang, Boyu Xu, Yuyuan Li, Tianyu Du, Shouling Ji,
- Abstract要約: 大規模視覚言語モデル(LVLM)は多モーダル推論タスクにおいて顕著な進歩を遂げている。
LVLMは、文脈で著作権のあるコンテンツに遭遇したとき、著作権規制を正しく認識し、遵守するだろうか?
- 参考スコア(独自算出の注目度): 47.50752173848172
- License:
- Abstract: Large vision-language models (LVLMs) have achieved remarkable advancements in multimodal reasoning tasks. However, their widespread accessibility raises critical concerns about potential copyright infringement. Will LVLMs accurately recognize and comply with copyright regulations when encountering copyrighted content (i.e., user input, retrieved documents) in the context? Failure to comply with copyright regulations may lead to serious legal and ethical consequences, particularly when LVLMs generate responses based on copyrighted materials (e.g., retrieved book experts, news reports). In this paper, we present a comprehensive evaluation of various LVLMs, examining how they handle copyrighted content -- such as book excerpts, news articles, music lyrics, and code documentation when they are presented as visual inputs. To systematically measure copyright compliance, we introduce a large-scale benchmark dataset comprising 50,000 multimodal query-content pairs designed to evaluate how effectively LVLMs handle queries that could lead to copyright infringement. Given that real-world copyrighted content may or may not include a copyright notice, the dataset includes query-content pairs in two distinct scenarios: with and without a copyright notice. For the former, we extensively cover four types of copyright notices to account for different cases. Our evaluation reveals that even state-of-the-art closed-source LVLMs exhibit significant deficiencies in recognizing and respecting the copyrighted content, even when presented with the copyright notice. To solve this limitation, we introduce a novel tool-augmented defense framework for copyright compliance, which reduces infringement risks in all scenarios. Our findings underscore the importance of developing copyright-aware LVLMs to ensure the responsible and lawful use of copyrighted content.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は多モーダル推論タスクにおいて顕著な進歩を遂げている。
しかし、その広範なアクセシビリティは、著作権侵害の可能性に対する重大な懸念を提起する。
LVLMは著作権のあるコンテンツ(すなわちユーザ入力、検索された文書)をコンテキスト内で正確に認識し、遵守するだろうか?
著作権規制に従わないことは、特にLVLMが著作権のある資料(例えば、回収された書籍の専門家、ニュースレポート)に基づいてレスポンスを生成する場合、重大な法的および倫理的な結果をもたらす可能性がある。
本稿では,書籍の抜粋,ニュース記事,音楽歌詞,コードドキュメンテーションなど,著作権のあるコンテンツを視覚的インプットとして提示する場合にどのように扱うか,様々なLVLMを包括的に評価する。
著作権コンプライアンスを体系的に評価するために,LVLMが著作権侵害につながる可能性のあるクエリを効果的に扱えるかを評価するために,50,000のマルチモーダルクエリ-コンテンツペアからなる大規模ベンチマークデータセットを導入する。
現実世界の著作権付きコンテンツが著作権通知を含まないか、あるいは含まないかを考えると、データセットには2つの異なるシナリオ(著作権通知の有無)に問合せ内容のペアが含まれている。
前者については、異なるケースを考慮に入れた4種類の著作権通知を広範囲にカバーする。
我々の評価では, 最先端のクローズドソースLVLMでさえ, 著作権通知が提示された場合でも, 著作権コンテンツを認識し, 尊重する上で, 重大な欠陥があることが明らかとなった。
この制限を解決するために、著作権コンプライアンスのための新しいツール強化防衛フレームワークを導入し、すべてのシナリオにおける侵害リスクを低減する。
本研究は,著作権を意識したLVLMの開発の重要性を明らかにするものである。
関連論文リスト
- Do LLMs Know to Respect Copyright Notice? [11.14140288980773]
保護材料を含むユーザ入力を処理する際に,言語モデルが著作権を侵害するか否かを検討する。
我々の研究は、言語モデルが著作権を侵害する可能性の程度を保守的に評価する。
本研究は、LLMが著作権規制を尊重することのさらなる調査の必要性と重要性を強調している。
論文 参考訳(メタデータ) (2024-11-02T04:45:21Z) - Measuring Copyright Risks of Large Language Model via Partial Information Probing [14.067687792633372]
LLM(Large Language Models)のトレーニングに使用されるデータソースについて検討する。
著作権のあるテキストの一部をLSMに入力し、それを完了するように促し、生成したコンテンツとオリジナルの著作権のある資料の重複を分析します。
これらの部分的な入力に基づいて著作権素材と重なり合うコンテンツをLLMが生成できることが本研究で実証された。
論文 参考訳(メタデータ) (2024-09-20T18:16:05Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z) - LLMs and Memorization: On Quality and Specificity of Copyright Compliance [0.0]
大規模言語モデル(LLM)のメモリ化が懸念されている。
LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。
これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。
論文 参考訳(メタデータ) (2024-05-28T18:01:52Z) - Copyright Protection in Generative AI: A Technical Perspective [58.84343394349887]
ジェネレーティブAIは近年急速に進歩し、テキスト、画像、オーディオ、コードなどの合成コンテンツを作成する能力を拡大している。
これらのディープ・ジェネレーティブ・モデル(DGM)が生成したコンテンツの忠実さと信頼性が、著作権の重大な懸念を引き起こしている。
この研究は、技術的観点から著作権保護の包括的概要を提供することで、この問題を深く掘り下げている。
論文 参考訳(メタデータ) (2024-02-04T04:00:33Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。