論文の概要: Data Shapley in One Training Run
- arxiv url: http://arxiv.org/abs/2406.11011v1
- Date: Sun, 16 Jun 2024 17:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:32:56.953219
- Title: Data Shapley in One Training Run
- Title(参考訳): ワントレーニングランにおけるデータ共有
- Authors: Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia,
- Abstract要約: 生成人工知能システムは、新しいテキスト、画像、ビデオ、その他のメディアを生成するために訓練されている。
このようなシステムは、データコントリビュータのトレーニングに関する著作権権に侵害されるのではないか、という懸念が高まっている。
本稿では,AI生成コンテンツ作成への貢献に比例して著作権所有者を補償する枠組みを提案する。
- 参考スコア(独自算出の注目度): 88.59484417202454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence (AI) systems are trained on large data corpora to generate new pieces of text, images, videos, and other media. There is growing concern that such systems may infringe on the copyright interests of training data contributors. To address the copyright challenges of generative AI, we propose a framework that compensates copyright owners proportionally to their contributions to the creation of AI-generated content. The metric for contributions is quantitatively determined by leveraging the probabilistic nature of modern generative AI models and using techniques from cooperative game theory in economics. This framework enables a platform where AI developers benefit from access to high-quality training data, thus improving model performance. Meanwhile, copyright owners receive fair compensation, driving the continued provision of relevant data for generative model training. Experiments demonstrate that our framework successfully identifies the most relevant data sources used in artwork generation, ensuring a fair and interpretable distribution of revenues among copyright owners.
- Abstract(参考訳): 生成人工知能(AI)システムは、テキスト、画像、ビデオ、その他のメディアを生成するために、大規模なデータコーパスで訓練されている。
このようなシステムは、データコントリビュータのトレーニングに関する著作権権に侵害されるのではないか、という懸念が高まっている。
生成AIの著作権問題に対処するため、我々は、AI生成コンテンツ作成への貢献に比例して著作権所有者を補償する枠組みを提案する。
コントリビューションの計量は、現代の生成AIモデルの確率的性質を活用し、経済学における協調ゲーム理論の技法を用いて定量的に決定される。
このフレームワークは、AI開発者が高品質なトレーニングデータにアクセスすることで、モデルパフォーマンスを向上させるプラットフォームを可能にする。
一方、著作権所有者は公正な補償を受け、生成モデルトレーニングのための関連データの継続的な提供を推進している。
実験により,本フレームワークは,著作権所有者間の収益の公平かつ解釈可能な分配を確保するため,美術作品生成において最も関連性の高いデータソースの同定に成功していることが示された。
関連論文リスト
- Optimize Cardinality Estimation Model Pretraining by Simplifying the Training Datasets [0.0]
既存の事前学習データセットのごく一部に縮小された簡易なトレーニングデータセットを導入する。
この単純化されたデータセットに基づく事前訓練された濃度推定器は、ゼロショット設定で既存のモデルに匹敵する性能を達成できることを示す十分な実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-20T08:06:16Z) - Scaling Laws for Forgetting during Finetuning with Pretraining Data Injection [37.65064631532493]
対象領域のデータに対する教師なし予測を行うために、事前訓練されたモデルを微調整することは、2つの課題を示す。
我々は,事前学習データを微調整データ混合物に注入する効率を計測し,過度な適合を回避し,過度な適合を緩和する。
本研究の実際的な特徴は、微調整データ混合物に1%の事前学習データを注入することで、事前学習セットを忘れないようにすることである。
論文 参考訳(メタデータ) (2025-02-09T21:44:27Z) - The interplay between domain specialization and model size: a case study in the legal domain [8.653321928148547]
計算制約シナリオ下での連続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
私たちのゴールは、このシナリオの計算効率のよいトレーニング体制を特定することです。
モデルのサイズが大きくなると、特殊モデルと一般モデルの間の計算効率のギャップが広がる。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Self Training with Ensemble of Teacher Models [8.257085583227695]
堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
論文 参考訳(メタデータ) (2021-07-17T09:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。