論文の概要: Copyright in AI Pre-Training Data Filtering: Regulatory Landscape and Mitigation Strategies
- arxiv url: http://arxiv.org/abs/2512.02047v1
- Date: Wed, 26 Nov 2025 14:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.529102
- Title: Copyright in AI Pre-Training Data Filtering: Regulatory Landscape and Mitigation Strategies
- Title(参考訳): AI事前トレーニングデータフィルタリングにおける著作権--規制ランドスケープと緩和戦略
- Authors: Mariia Kyrychenko, Mykyta Mudryi, Markiyan Chaklosh,
- Abstract要約: 汎用AIモデルの急速な進歩により、トレーニングデータにおける著作権侵害に対する懸念が高まっている。
本稿では,EU,米国,アジア太平洋地域を含む主要地域におけるAIトレーニングデータガバナンスの規制状況について検討する。
また、AI開発におけるクリエーターの権利と持続可能性の両方を脅かす強制機構における重要なギャップを特定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of general-purpose AI models has increased concerns about copyright infringement in training data, yet current regulatory frameworks remain predominantly reactive rather than proactive. This paper examines the regulatory landscape of AI training data governance in major jurisdictions, including the EU, the United States, and the Asia-Pacific region. It also identifies critical gaps in enforcement mechanisms that threaten both creator rights and the sustainability of AI development. Through analysis of major cases we identified critical gaps in pre-training data filtering. Existing solutions such as transparency tools, perceptual hashing, and access control mechanisms address only specific aspects of the problem and cannot prevent initial copyright violations. We identify two fundamental challenges: pre-training license collection and content filtering, which faces the impossibility of comprehensive copyright management at scale, and verification mechanisms, which lack tools to confirm filtering prevented infringement. We propose a multilayered filtering pipeline that combines access control, content verification, machine learning classifiers, and continuous database cross-referencing to shift copyright protection from post-training detection to pre-training prevention. This approach offers a pathway toward protecting creator rights while enabling continued AI innovation.
- Abstract(参考訳): 汎用AIモデルの急速な進歩は、トレーニングデータにおける著作権侵害に対する懸念を増大させているが、現在の規制フレームワークは、積極的にではなく、主にリアクティブである。
本稿では,EU,米国,アジア太平洋地域を含む主要地域におけるAIトレーニングデータガバナンスの規制状況について検討する。
また、AI開発におけるクリエーターの権利と持続可能性の両方を脅かす強制機構における重要なギャップを特定する。
主要症例の分析を通じて,事前学習データフィルタリングにおける重要なギャップを同定した。
透明性ツール、知覚的ハッシュ、アクセス制御機構といった既存のソリューションは、問題の特定の側面だけに対処し、初期著作権侵害を防ぐことはできない。
ライセンス収集の事前訓練と,大規模な包括的な著作権管理の不可避性に直面するコンテンツフィルタリングと,フィルタリング防止のためのツールが欠如している検証メカニズムの2つの基本的な課題を特定した。
本稿では,アクセス制御,コンテンツ検証,機械学習分類器,連続データベース参照を組み合わせた多層フィルタリングパイプラインを提案する。
このアプローチは、継続的なAIイノベーションを可能にしながら、クリエーターの権利を保護するための道筋を提供する。
関連論文リスト
- Global AI Governance Overview: Understanding Regulatory Requirements Across Global Jurisdictions [0.0]
汎用AIモデルの急速な進歩により、トレーニングデータにおける著作権侵害に対する懸念が高まっている。
本稿では,EU,米国,アジア太平洋地域を含む主要地域におけるAIトレーニングデータガバナンスの規制状況について検討する。
また、AI開発におけるクリエーターの権利と持続可能性の両方を脅かす強制機構における重要なギャップを特定する。
論文 参考訳(メタデータ) (2025-11-26T13:59:11Z) - MAIF: Enforcing AI Trust and Provenance with an Artifact-Centric Agentic Paradigm [0.5495755145898128]
現在のAIシステムは、監査証跡、証明追跡、EU AI Actのような新たな規則で要求される説明可能性に欠ける不透明なデータ構造で運用されている。
動作は一時的なタスクではなく、永続的で検証可能なデータアーティファクトによって駆動される、アーティファクト中心のAIエージェントパラダイムを提案する。
プロダクション対応実装では、超高速ストリーミング(2,720.7MB/s)、最適化されたビデオ処理(1,342MB/s)、エンタープライズレベルのセキュリティが示されている。
論文 参考訳(メタデータ) (2025-11-19T04:10:32Z) - Anti-Regulatory AI: How "AI Safety" is Leveraged Against Regulatory Oversight [0.9883261192383612]
AI企業は、プライバシ強化技術、バイアス抑制対策、評価フレームワーク、アライメントテクニックの開発と展開をますます進めている。
本稿では,法的な影響のメカニズムとして,これらの技術の内面的機能について考察する。
論文 参考訳(メタデータ) (2025-09-26T19:35:10Z) - Rethinking Data Protection in the (Generative) Artificial Intelligence Era [138.07763415496288]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。
当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文 参考訳(メタデータ) (2025-07-03T02:45:51Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z) - Governing AI Beyond the Pretraining Frontier [0.0]
今年は、米国、欧州連合、英国、中国を含む世界中の司法管轄区域が、フロンティアAIを規定する法律を制定または改正する予定である。
しかし、この「事前訓練パラダイム」が壁を突き抜け、主要なAI企業が代替アプローチに転換していることを示す証拠が増えている。
このエッセイは、これらの課題を特定し、規制のために進む新たな道を指し示そうとしている。
論文 参考訳(メタデータ) (2025-01-27T16:25:03Z) - The risks of risk-based AI regulation: taking liability seriously [46.90451304069951]
AIの開発と規制は、重要な段階に達したようだ。
一部の専門家は、GPT-4よりも強力なAIシステムのトレーニングに関するモラトリアムを求めている。
本稿では、最も先進的な法的提案である欧州連合のAI法について分析する。
論文 参考訳(メタデータ) (2023-11-03T12:51:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。