論文の概要: LicenseGPT: A Fine-tuned Foundation Model for Publicly Available Dataset License Compliance
- arxiv url: http://arxiv.org/abs/2501.00106v1
- Date: Mon, 30 Dec 2024 19:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 16:54:29.995812
- Title: LicenseGPT: A Fine-tuned Foundation Model for Publicly Available Dataset License Compliance
- Title(参考訳): LicenseGPT: 一般公開されたデータセットライセンス準拠のための微調整されたファンデーションモデル
- Authors: Jingwen Tan, Gopi Krishnan Rajbahadur, Zi Li, Xiangfu Song, Jianshan Lin, Dan Li, Zibin Zheng, Ahmed E. Hassan,
- Abstract要約: 本稿では,データセットのライセンスコンプライアンス解析に特化して設計されたファウンデーションモデル (FM) である LicenseGPT を紹介する。
既存の法的なFMを評価し,最高の性能モデルが43.75%の予測契約(PA)を達成していることを確認した。
LicenseGPTは、解析時間を94.44%削減し、1ライセンスあたり108秒から6秒に短縮する。
- 参考スコア(独自算出の注目度): 27.595354325922436
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dataset license compliance is a critical yet complex aspect of developing commercial AI products, particularly with the increasing use of publicly available datasets. Ambiguities in dataset licenses pose significant legal risks, making it challenging even for software IP lawyers to accurately interpret rights and obligations. In this paper, we introduce LicenseGPT, a fine-tuned foundation model (FM) specifically designed for dataset license compliance analysis. We first evaluate existing legal FMs (i.e., FMs specialized in understanding and processing legal texts) and find that the best-performing model achieves a Prediction Agreement (PA) of only 43.75%. LicenseGPT, fine-tuned on a curated dataset of 500 licenses annotated by legal experts, significantly improves PA to 64.30%, outperforming both legal and general-purpose FMs. Through an A/B test and user study with software IP lawyers, we demonstrate that LicenseGPT reduces analysis time by 94.44%, from 108 seconds to 6 seconds per license, without compromising accuracy. Software IP lawyers perceive LicenseGPT as a valuable supplementary tool that enhances efficiency while acknowledging the need for human oversight in complex cases. Our work underscores the potential of specialized AI tools in legal practice and offers a publicly available resource for practitioners and researchers.
- Abstract(参考訳): データセットライセンスのコンプライアンスは、商用AI製品、特に公開データセットの利用の増加において、重要で複雑な側面である。
データセットライセンスの曖昧さは重大な法的リスクをもたらし、ソフトウェアIP弁護士でさえ権利と義務を正確に解釈することは困難である。
本稿では,データセットのライセンスコンプライアンス解析に特化して設計されたファウンデーションモデル(FM)であるLustGPTを紹介する。
我々はまず,既存の法的FM(すなわち,法的テキストの理解と処理に特化したFM)を評価し,最高のパフォーマンスモデルが43.75%の予測契約(PA)を達成していることを確認した。
LicenseGPTは、法的専門家によって注釈付けされた500ライセンスのキュレートされたデータセットに基づいて微調整され、PAを64.30%に大幅に改善し、法的なFMと汎用FMの両方を上回っている。
A/BテストとソフトウェアIP弁護士によるユーザスタディにより、ライセンスGPTは解析時間を94.44%削減し、1ライセンスあたり108秒から6秒に短縮する。
ソフトウェアIPの弁護士は、複雑なケースでは人間の監視の必要性を認識しながら効率を高める貴重な補助ツールとして、ライセンスGPTを認識している。
私たちの研究は、法律実務における専門的なAIツールの可能性を強調し、実践者や研究者に公開されているリソースを提供します。
関連論文リスト
- Do Not Trust Licenses You See: Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing [45.6582862121583]
本稿では,データセットの法的リスクは,ライセンス条項だけでは正確に評価できないことを論じる。
データセットの再配布と完全なライフサイクルの追跡が不可欠である、と同社は主張する。
我々は、AIが人間の専門家よりも高い精度、効率、コスト効率でこれらのタスクを実行できることを示した。
論文 参考訳(メタデータ) (2025-03-04T16:57:53Z) - OSS License Identification at Scale: A Comprehensive Dataset Using World of Code [4.954816514146113]
本研究では,オープンソースソフトウェア(OSS)ライセンスの再利用と包括的データセットを提案する。
OSSプロジェクトで550万の異なるライセンスブロブを発見し、特定しました。
データセットはオープンで、OSSコミュニティの開発者、研究者、法律専門家に貴重なリソースを提供する。
論文 参考訳(メタデータ) (2024-09-07T13:34:55Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model [44.71845500433037]
我々は,中国における法律の応用に特化して設計された,最初のオープンソースモデルであるLawGPTを紹介する。
LawGPTは2つの重要なコンポーネントで構成されている。
実験の結果,LawGPTはオープンソースのLLaMA 7Bモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-06-07T03:52:56Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z) - The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing
& Attribution in AI [41.32981860191232]
法的および機械学習の専門家は、1800以上のテキストデータセットを体系的に監査し、追跡する。
私たちのランドスケープ分析は、コンポジションの急激な分断と、商業的にオープンなデータセットとクローズドなデータセットの焦点を浮き彫りにしています。
広く使用されているデータセットホスティングサイトでは、ライセンスが70%以上、エラー率が50%以上である。
論文 参考訳(メタデータ) (2023-10-25T17:20:26Z) - Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model [30.30848216845138]
ChatlawはMixture-of-Experts(MoE)モデルとマルチエージェントシステムを利用した革新的な法的アシスタントである。
知識グラフと人工スクリーニングを組み合わせることで,MoEモデルをトレーニングするための高品質な法的データセットを構築する。
弊社のMoEモデルは,法律専門家のGPT-4とUnified Exam Qualificationをそれぞれ7.73%,11ポイントで上回っている。
論文 参考訳(メタデータ) (2023-06-28T10:48:34Z) - FedSOV: Federated Model Secure Ownership Verification with Unforgeable
Signature [60.99054146321459]
フェデレートラーニングにより、複数のパーティがプライベートデータを公開せずにグローバルモデルを学ぶことができる。
本稿では,FedSOVという暗号署名に基づくフェデレート学習モデルのオーナシップ検証手法を提案する。
論文 参考訳(メタデータ) (2023-05-10T12:10:02Z) - Can I use this publicly available dataset to build commercial AI
software? Most likely not [8.853674186565934]
商用AIソフトウェアを構築するために、与えられた公開データセットを使用する場合、ライセンスコンプライアンス違反の可能性を評価するための新しいアプローチを提案する。
その結果,これらの6つの研究データセットのうち5つは,ライセンス違反のリスクがあることが判明した。
論文 参考訳(メタデータ) (2021-11-03T17:44:06Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。