論文の概要: "They've Stolen My GPL-Licensed Model!": Toward Standardized and Transparent Model Licensing
- arxiv url: http://arxiv.org/abs/2412.11483v1
- Date: Mon, 16 Dec 2024 06:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:26.153069
- Title: "They've Stolen My GPL-Licensed Model!": Toward Standardized and Transparent Model Licensing
- Title(参考訳): 『GPLライセンスモデルにこだわる!』:標準化された透明モデルライセンスを目指して
- Authors: Moming Duan, Rui Zhao, Linshan Jiang, Nigel Shadbolt, Bingsheng He,
- Abstract要約: 我々は、MLワークフロー管理のための新しい語彙を開発し、ライセンスルールを符号化し、権利付与とコンプライアンスの問題を分析するためのオントロジ的推論を可能にする。
分析ツールは、Linked Open Model Dataへの第一歩として想定されている、Turtle言語とNotation3推論エンジンをベースにしています。
- 参考スコア(独自算出の注目度): 30.19362102481241
- License:
- Abstract: As model parameter sizes reach the billion-level range and their training consumes zettaFLOPs of computation, components reuse and collaborative development are become increasingly prevalent in the Machine Learning (ML) community. These components, including models, software, and datasets, may originate from various sources and be published under different licenses, which govern the use and distribution of licensed works and their derivatives. However, commonly chosen licenses, such as GPL and Apache, are software-specific and are not clearly defined or bounded in the context of model publishing. Meanwhile, the reused components may also have free-content licenses and model licenses, which pose a potential risk of license noncompliance and rights infringement within the model production workflow. In this paper, we propose addressing the above challenges along two lines: 1) For license analysis, we have developed a new vocabulary for ML workflow management and encoded license rules to enable ontological reasoning for analyzing rights granting and compliance issues. 2) For standardized model publishing, we have drafted a set of model licenses that provide flexible options to meet the diverse needs of model publishing. Our analysis tool is built on Turtle language and Notation3 reasoning engine, envisioned as a first step toward Linked Open Model Production Data. We have also encoded our proposed model licenses into rules and demonstrated the effects of GPL and other commonly used licenses in model publishing, along with the flexibility advantages of our licenses, through comparisons and experiments.
- Abstract(参考訳): モデルパラメータのサイズが10億レベルに達すると、そのトレーニングは計算のゼッタFLOPを消費するので、コンポーネントの再利用と協調開発は機械学習(ML)コミュニティでますます一般的になっています。
モデル、ソフトウェア、データセットを含むこれらのコンポーネントは、様々なソースから派生し、ライセンスされた作品とそのデリバティブの使用と配布を管理する異なるライセンスの下で公開される可能性がある。
しかしながら、GPLやApacheのような一般的に選択されるライセンスは、ソフトウェア固有のものであり、モデルパブリッシングの文脈で明確に定義または境界づけられていない。
一方、再利用されたコンポーネントは、フリーコンテントのライセンスとモデルライセンスを持ち、モデル生産ワークフロー内でライセンスの非準拠と権利侵害のリスクを生じさせる可能性がある。
本稿では,上記2つの課題に対処することを提案する。
1) ライセンス分析のために, MLワークフロー管理のための新しい語彙と, ライセンスルールを符号化し, 権利付与とコンプライアンスの問題を分析するための存在論的推論を可能にする。
2)標準化されたモデルパブリッシングのために、モデルパブリッシングの多様なニーズを満たす柔軟なオプションを提供するモデルライセンスのセットをドラフトしました。
分析ツールは、Linked Open Model Production Dataへの第一歩として想定されている、Turtle言語とNotation3推論エンジンをベースにしています。
また、提案したモデルライセンスをルールにエンコードし、比較や実験を通じて、モデルパブリッシングにおけるGPLやその他の一般的なライセンスの効果と、当社のライセンスの柔軟性の利点を実証しました。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - LiCoEval: Evaluating LLMs on License Compliance in Code Generation [27.368667936460508]
大規模言語モデル(LLM)はコード生成に革命をもたらし、開発者によるAIコーディングツールの普及につながった。
LLMは、ライセンス情報を提供することなくライセンス保護されたコードを生成することができ、ソフトウェア製造中に知的財産権侵害を引き起こす可能性がある。
本稿では,LLM生成コードにおけるライセンスコンプライアンスの重要かつ未解明な問題に対処する。
論文 参考訳(メタデータ) (2024-08-05T14:09:30Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - LiSum: Open Source Software License Summarization with Multi-Task
Learning [16.521420821183995]
オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。
コミュニティには様々なOSSライセンスがあり、形式言語で書かれている。
ユーザスタディとコミュニティにおけるライセンスの急速な成長に動機付けられ,自動ライセンス要約に向けた最初の研究を提案する。
論文 参考訳(メタデータ) (2023-09-10T16:43:51Z) - LiResolver: License Incompatibility Resolution for Open Source Software [13.28021004336228]
LiResolverは、オープンソースソフトウェアのライセンス不互換性問題を解決するための、きめ細かい、スケーラブルで柔軟なツールです。
総合的な実験ではLiResolverの有効性が示され、不整合問題の局所化には4.09%の偽陽性(FP)と0.02%の偽陰性(FN)が有効である。
論文 参考訳(メタデータ) (2023-06-26T13:16:09Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - Foundation Models and Fair Use [96.04664748698103]
米国や他の国では、著作権のあるコンテンツは、公正な使用原理のために責任を負わずに基礎モデルを構築するために使われることがある。
本研究では,著作権コンテンツに基づく基礎モデルの開発と展開の潜在的なリスクについて調査する。
基礎モデルが公正な使用と一致し続けるのに役立つ技術的緩和について論じる。
論文 参考訳(メタデータ) (2023-03-28T03:58:40Z) - Can I use this publicly available dataset to build commercial AI
software? Most likely not [8.853674186565934]
商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。
その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
論文 参考訳(メタデータ) (2021-11-03T17:44:06Z) - DIETERpy: a Python framework for The Dispatch and Investment Evaluation
Tool with Endogenous Renewables [62.997667081978825]
DIETERはオープンソースの電力セクターモデルであり、可変再生可能エネルギー源の非常に高いシェアで将来の設定を分析するように設計されている。
システム全体のコストを最小化し、様々な世代の固定および可変コスト、柔軟性、セクター結合オプションを含む。
我々は、GAMS(General Algebraic Modeling System)で記述された既存のモデルバージョンの上に構築されたDIETERpyを紹介し、それをPythonフレームワークで強化する。
論文 参考訳(メタデータ) (2020-10-02T09:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。