論文の概要: An investigation of licensing of datasets for machine learning based on
the GQM model
- arxiv url: http://arxiv.org/abs/2303.13735v1
- Date: Fri, 24 Mar 2023 01:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:12:19.901445
- Title: An investigation of licensing of datasets for machine learning based on
the GQM model
- Title(参考訳): GQMモデルに基づく機械学習のためのデータセットのライセンスに関する研究
- Authors: Junyu Chen, Norihiro Yoshida, Hiroaki Takada
- Abstract要約: 機械学習システムの開発において、最も広く使われているデータセットは一般に公開されているデータセットである。
一般に公開されているデータセットの画像は主にインターネットから取得されているため、一部の画像は市販されていない。
要約すると、機械学習システムのためのデータセットのライセンスは、この段階であらゆる面で不完全である。
- 参考スコア(独自算出の注目度): 4.8793230799789535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset licensing is currently an issue in the development of machine
learning systems. And in the development of machine learning systems, the most
widely used are publicly available datasets. However, since the images in the
publicly available dataset are mainly obtained from the Internet, some images
are not commercially available. Furthermore, developers of machine learning
systems do not often care about the license of the dataset when training
machine learning models with it. In summary, the licensing of datasets for
machine learning systems is in a state of incompleteness in all aspects at this
stage.
Our investigation of two collection datasets revealed that most of the
current datasets lacked licenses, and the lack of licenses made it impossible
to determine the commercial availability of the datasets. Therefore, we decided
to take a more scientific and systematic approach to investigate the licensing
of datasets and the licensing of machine learning systems that use the dataset
to make it easier and more compliant for future developers of machine learning
systems.
- Abstract(参考訳): データセットのライセンスは現在、機械学習システムの開発において問題となっている。
そして、機械学習システムの開発において、最も広く使われているのは、利用可能なデータセットである。
しかし、公開されているデータセット内の画像は主にインターネットから取得されているため、いくつかの画像は商業的に利用できない。
さらに、機械学習システムの開発者は、機械学習モデルをトレーニングする際にデータセットのライセンスを気にしないことが多い。
要約すると、機械学習システムのためのデータセットのライセンスは、この段階であらゆる面で不完全である。
2つのコレクションデータセットを調査した結果、現在のデータセットのほとんどはライセンスが欠如しており、ライセンスが欠如しているため、データセットの商用可用性が決定できないことが分かった。
そこで、より科学的かつ体系的なアプローチで、データセットのライセンスと、データセットを用いた機械学習システムのライセンスについて調査し、機械学習システムの将来の開発者にとって、より簡単かつコンプライアンスの高いものにすることを決定した。
関連論文リスト
- AI Competitions and Benchmarks: Dataset Development [42.164845505628506]
本章では,我々の実践経験に富んだ,確立した方法論ツールの概要について概観する。
データセット開発に関わるタスクを開発し、その効果的な管理に関する洞察を提供する。
次に、データ収集、変換、品質評価を含む実装プロセスの詳細について述べる。
論文 参考訳(メタデータ) (2024-04-15T12:01:42Z) - Machine Unlearning: Taxonomy, Metrics, Applications, Challenges, and
Prospects [17.502158848870426]
データユーザには、データを忘れる権利が与えられている。
機械学習(ML)の過程で、忘れられた権利は、ユーザーデータを削除するためにモデルプロバイダを必要とする。
機械学習は、業界と学界の両方からますます注目を集めている。
論文 参考訳(メタデータ) (2024-03-13T05:11:24Z) - A Systematic Review of Available Datasets in Additive Manufacturing [56.684125592242445]
視覚およびその他のセンサー技術を組み込んだその場監視により、追加製造プロセス中に広範なデータセットの収集が可能になる。
これらのデータセットは、製造された出力の品質を判断し、機械学習を使用して欠陥を検出する可能性がある。
本稿では,AMプロセスから派生したオープン画像ベースデータセットの利用可能性について検討する。
論文 参考訳(メタデータ) (2024-01-27T16:13:32Z) - On-device Training: A First Overview on Existing Systems [6.551096686706628]
リソース制約のあるデバイスにいくつかのモデルをデプロイする努力も行われている。
この研究は、デバイス上でモデルトレーニングを可能にする最先端のシステム研究を要約し、分析することを目的としている。
論文 参考訳(メタデータ) (2022-12-01T19:22:29Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - From Distributed Machine Learning to Federated Learning: A Survey [49.7569746460225]
分散学習は、分散データとコンピューティングリソースを利用するための効率的なアプローチとして現れる。
本論文では,連合学習システムの機能構造と関連手法の分類法を提案する。
本稿では,flシステムの分散トレーニング,データ通信,セキュリティについて述べる。
論文 参考訳(メタデータ) (2021-04-29T14:15:11Z) - Industrial Machine Tool Component Surface Defect Dataset [0.3170655320696991]
機械学習(ml)技術は一般的に、ディープラーニング技術は特定の量のデータを必要とする。
工作機械コンポーネントの手動検査と製品の手動最終検査は、労働集約的な作業です。
モデルのトレーニングとテストには,実世界のデータセットが必要だ。
論文 参考訳(メタデータ) (2021-03-24T06:17:21Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。