論文の概要: Copyright Detection in Large Language Models: An Ethical Approach to Generative AI Development
- arxiv url: http://arxiv.org/abs/2511.20623v1
- Date: Tue, 25 Nov 2025 18:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.628424
- Title: Copyright Detection in Large Language Models: An Ethical Approach to Generative AI Development
- Title(参考訳): 大規模言語モデルにおける著作権検出 : 生成AI開発への倫理的アプローチ
- Authors: David Szczecina, Senan Gaffori, Edmond Li,
- Abstract要約: 本稿では,コンテンツ作成者がデータセットのトレーニングに使用されているかどうかを検証できるオープンソース著作権検出プラットフォームを提案する。
直感的なユーザインターフェースとスケーラブルなバックエンドを持つこのフレームワークは、AI開発と倫理的コンプライアンスの透明性向上に寄与する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The widespread use of Large Language Models (LLMs) raises critical concerns regarding the unauthorized inclusion of copyrighted content in training data. Existing detection frameworks, such as DE-COP, are computationally intensive, and largely inaccessible to independent creators. As legal scrutiny increases, there is a pressing need for a scalable, transparent, and user-friendly solution. This paper introduce an open-source copyright detection platform that enables content creators to verify whether their work was used in LLM training datasets. Our approach enhances existing methodologies by facilitating ease of use, improving similarity detection, optimizing dataset validation, and reducing computational overhead by 10-30% with efficient API calls. With an intuitive user interface and scalable backend, this framework contributes to increasing transparency in AI development and ethical compliance, facilitating the foundation for further research in responsible AI development and copyright enforcement.
- Abstract(参考訳): LLM(Large Language Models)の広範な使用は、トレーニングデータに著作権のあるコンテンツが不正に含まれることに関して、重大な懸念を提起する。
DE-COPのような既存の検出フレームワークは計算集約的であり、独立系クリエーターにはほとんどアクセスできない。
法的な精査が進むにつれ、スケーラブルで透明でユーザフレンドリーなソリューションの必要性が高まっています。
本稿では,コンテンツ制作者がLLMトレーニングデータセットに自分の作品が使用されているかどうかを検証できるオープンソース著作権検出プラットフォームを提案する。
提案手法では,使いやすさの向上,類似性検出の改善,データセット検証の最適化,効率的なAPI呼び出しによる計算オーバーヘッドの10~30%削減などにより,既存の方法論を改良する。
直感的なユーザインターフェースとスケーラブルなバックエンドによって、このフレームワークは、AI開発と倫理的コンプライアンスの透明性の向上に貢献し、責任あるAI開発と著作権執行に関するさらなる研究の基盤となる。
関連論文リスト
- Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。
コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文 参考訳(メタデータ) (2025-10-20T17:53:23Z) - ACT: Bridging the Gap in Code Translation through Synthetic Data Generation & Adaptive Training [1.4709455282157278]
Auto-Train for Code Translation (ACT)は、オープンソースのLarge Language Models (LLM)を社内で微調整することで、コード翻訳機能を改善することを目的としている。
ACTの自動パイプラインはこれらのモデルの性能を大幅に向上させ、オープンソースアクセシビリティとクローズドソースソリューションのパフォーマンスのギャップを狭める。
我々の結果は、ACTがオープンソースモデルの有効性を一貫して強化し、企業や開発者が安全で信頼性の高い代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-07-22T11:35:35Z) - Does Machine Unlearning Truly Remove Knowledge? [80.83986295685128]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2025-05-29T09:19:07Z) - CAP: Detecting Unauthorized Data Usage in Generative Models via Prompt Generation [1.6141139250981018]
Copyright Audit via Prompts Generation (CAP)は、MLモデルが不正なデータでトレーニングされているかどうかを自動的にテストするフレームワークである。
具体的には、著作権のあるコンテンツを明らかにするためのモデルに適切なキーを生成するアプローチを考案する。
有効性を証明するため,4つのIoTシナリオで収集した測定値について広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-08T08:49:41Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。