論文の概要: Can I use this publicly available dataset to build commercial AI
software? Most likely not
- arxiv url: http://arxiv.org/abs/2111.02374v1
- Date: Wed, 3 Nov 2021 17:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:13:45.844838
- Title: Can I use this publicly available dataset to build commercial AI
software? Most likely not
- Title(参考訳): このデータセットを使って商用AIソフトウェアを構築できますか?
おそらくそうではない
- Authors: Gopi Krishnan Rajbahadur, Erika Tuck, Li Zi, Zhang Wei, Dayi Lin,
Boyuan Chen, Zhen Ming (Jack) Jiang, Daniel Morales German
- Abstract要約: 商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。
その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
- 参考スコア(独自算出の注目度): 8.853674186565934
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Publicly available datasets are one of the key drivers for commercial AI
software. The use of publicly available datasets (particularly for commercial
purposes) is governed by dataset licenses. These dataset licenses outline the
rights one is entitled to on a given dataset and the obligations that one must
fulfil to enjoy such rights without any license compliance violations. However,
unlike standardized Open Source Software (OSS) licenses, existing dataset
licenses are defined in an ad-hoc manner and do not clearly outline the rights
and obligations associated with their usage. This makes checking for potential
license compliance violations difficult. Further, a public dataset may be
hosted in multiple locations and created from multiple data sources each of
which may have different licenses. Hence, existing approaches on checking OSS
license compliance cannot be used. In this paper, we propose a new approach to
assess the potential license compliance violations if a given publicly
available dataset were to be used for building commercial AI software. We
conduct trials of our approach on two product groups within Huawei on 6
commonly used publicly available datasets. Our results show that there are
risks of license violations on 5 of these 6 studied datasets if they were used
for commercial purposes. Consequently, we provide recommendations for AI
engineers on how to better assess publicly available datasets for license
compliance violations.
- Abstract(参考訳): 公開データセットは、商用AIソフトウェアの主要な要因のひとつだ。
公開データセットの使用(特に商業目的)は、データセットライセンスによって管理される。
これらのデータセットライセンスは、与えられたデータセットに権利を付与する権利と、ライセンス違反なしにそのような権利を享受しなければならない義務を概説する。
しかしながら、標準化されたオープンソースソフトウェア(OSS)ライセンスとは異なり、既存のデータセットライセンスはアドホックな方法で定義されており、それらの使用に関する権利と義務を明確に示していない。
これにより、潜在的なライセンスコンプライアンス違反のチェックが困難になる。
さらに、パブリックデータセットを複数の場所にホストして、それぞれ異なるライセンスを持つ複数のデータソースから作成することもできる。
したがって、OSSライセンスのコンプライアンスをチェックする既存のアプローチは使用できない。
本稿では,商用AIソフトウェア構築に利用可能なデータセットを使用する場合,ライセンス違反の可能性を評価するための新しいアプローチを提案する。
我々は、ファーウェイ内の2つの製品グループで、一般に使用される6つのデータセットで、このアプローチを試行している。
その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
その結果、ライセンスコンプライアンス違反に対して、公開データセットをより適切に評価する方法について、AIエンジニアに推奨します。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - On the Standardization of Behavioral Use Clauses and Their Adoption for
Responsible Licensing of AI [27.748532981456464]
2018年、AI資産をリリースするためのフレームワークを提供するために、行動利用条項付きのライセンスが提案された。
2023年末時点で、4万のソフトウェアとモデルリポジトリの順序で、責任あるAIライセンスが採用されている。
論文 参考訳(メタデータ) (2024-02-07T22:29:42Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - The Software Heritage License Dataset (2022 Edition) [0.0]
データセットは690万のユニークなライセンスファイルで構成されている。出荷されたライセンスファイルに関する追加メタデータも提供されている。
このデータセットは、オープンソースライセンス、自動ライセンス暗号のトレーニング、法律テキストの自然言語処理(NLP)分析に関する実証的研究を行うために使用することができる。
論文 参考訳(メタデータ) (2023-08-22T08:01:07Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - LiResolver: License Incompatibility Resolution for Open Source Software [13.28021004336228]
LiResolverは、オープンソースソフトウェアのライセンス不互換性問題を解決するための、きめ細かい、スケーラブルで柔軟なツールです。
総合的な実験ではLiResolverの有効性が示され、不整合問題の局所化には4.09%の偽陽性(FP)と0.02%の偽陰性(FN)が有効である。
論文 参考訳(メタデータ) (2023-06-26T13:16:09Z) - Foundation Models and Fair Use [96.04664748698103]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文 参考訳(メタデータ) (2023-03-28T03:58:40Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。