論文の概要: LiSum: Open Source Software License Summarization with Multi-Task
Learning
- arxiv url: http://arxiv.org/abs/2309.05074v2
- Date: Fri, 22 Sep 2023 06:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 08:12:14.791226
- Title: LiSum: Open Source Software License Summarization with Multi-Task
Learning
- Title(参考訳): LiSum: マルチタスク学習によるオープンソースソフトウェアライセンスの要約
- Authors: Linyu Li, Sihan Xu, Yang Liu, Ya Gao, Xiangrui Cai, Jiarun Wu, Wenli
Song and Zheli Liu
- Abstract要約: オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。
コミュニティには様々なOSSライセンスがあり、形式言語で書かれている。
ユーザスタディとコミュニティにおけるライセンスの急速な成長に動機付けられ,自動ライセンス要約に向けた最初の研究を提案する。
- 参考スコア(独自算出の注目度): 16.521420821183995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open source software (OSS) licenses regulate the conditions under which users
can reuse, modify, and distribute the software legally. However, there exist
various OSS licenses in the community, written in a formal language, which are
typically long and complicated to understand. In this paper, we conducted a
661-participants online survey to investigate the perspectives and practices of
developers towards OSS licenses. The user study revealed an indeed need for an
automated tool to facilitate license understanding. Motivated by the user study
and the fast growth of licenses in the community, we propose the first study
towards automated license summarization. Specifically, we released the first
high quality text summarization dataset and designed two tasks, i.e., license
text summarization (LTS), aiming at generating a relatively short summary for
an arbitrary license, and license term classification (LTC), focusing on the
attitude inference towards a predefined set of key license terms (e.g.,
Distribute). Aiming at the two tasks, we present LiSum, a multi-task learning
method to help developers overcome the obstacles of understanding OSS licenses.
Comprehensive experiments demonstrated that the proposed jointly training
objective boosted the performance on both tasks, surpassing state-of-the-art
baselines with gains of at least 5 points w.r.t. F1 scores of four
summarization metrics and achieving 95.13% micro average F1 score for
classification simultaneously. We released all the datasets, the replication
package, and the questionnaires for the community.
- Abstract(参考訳): オープンソースソフトウェア(OSS)ライセンスは、ユーザーが合法的にソフトウェアを再利用、修正、配布できる条件を規制している。
しかし、コミュニティには様々なOSSライセンスがあり、形式言語で書かれており、通常は長くて理解しにくい。
本稿では,OSSライセンスに対する開発者の視点と実践を調査するため,681名の参加者を対象にオンライン調査を行った。
ユーザ調査により、ライセンス理解を容易にする自動化ツールの必要性が明らかにされた。
ユーザ調査とコミュニティにおけるライセンスの急速な成長に動機づけられ,ライセンスの自動要約に向けた最初の研究を提案する。
具体的には、最初の高品質テキスト要約データセットをリリースし、任意のライセンスに対する比較的短い要約を生成するためのライセンステキスト要約(LTS)と、予め定義されたキーライセンス用語の集合に対する態度推論に焦点を当てたライセンス用語分類(LTC)という2つのタスクを設計した。
この2つのタスクを目標として,OSSライセンス理解の障害を克服するためのマルチタスク学習手法LiSumを提案する。
総合的な実験により、提案された共同学習目標が両タスクのパフォーマンスを向上し、少なくとも4つの要約基準の5点w.r.t.F1スコアと95.13%のマイクロ平均F1スコアを同時に獲得した。
私たちは、すべてのデータセット、レプリケーションパッケージ、コミュニティのためのアンケートをリリースしました。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - OSS License Identification at Scale: A Comprehensive Dataset Using World of Code [4.954816514146113]
我々は、徹底的なアプローチを採用し、それらのファイルパスに'ライセンス'を含むすべてのファイルをスキャンし、堅牢なテキストマッチングにWinnowingアルゴリズムを適用した。
提案手法は,数百万のOSSプロジェクト間で550万以上の異なるライセンスブロブを識別し,一致させ,詳細なP2Lマップを作成する。
論文 参考訳(メタデータ) (2024-09-07T13:34:55Z) - LiCoEval: Evaluating LLMs on License Compliance in Code Generation [27.368667936460508]
大規模言語モデル(LLM)はコード生成に革命をもたらし、開発者によるAIコーディングツールの普及につながった。
LLMは、ライセンス情報を提供することなくライセンス保護されたコードを生成することができ、ソフトウェア製造中に知的財産権侵害を引き起こす可能性がある。
本稿では,LLM生成コードにおけるライセンスコンプライアンスの重要かつ未解明な問題に対処する。
論文 参考訳(メタデータ) (2024-08-05T14:09:30Z) - Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。
ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。
プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文 参考訳(メタデータ) (2024-06-27T12:05:55Z) - Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX
Licenses [16.948633594354412]
ソフトウェア開発におけるサードパーティライブラリ(TPL)は、モダンなソフトウェアの開発を加速している。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
論文 参考訳(メタデータ) (2024-01-19T11:27:34Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - LiResolver: License Incompatibility Resolution for Open Source Software [13.28021004336228]
LiResolverは、オープンソースソフトウェアのライセンス不互換性問題を解決するための、きめ細かい、スケーラブルで柔軟なツールです。
総合的な実験ではLiResolverの有効性が示され、不整合問題の局所化には4.09%の偽陽性(FP)と0.02%の偽陰性(FN)が有効である。
論文 参考訳(メタデータ) (2023-06-26T13:16:09Z) - Fact-Checking Complex Claims with Program-Guided Reasoning [99.7212240712869]
Program-Guided Fact-Checking (ProgramFC)は、複雑なクレームを単純なサブタスクに分解する新しいファクトチェックモデルである。
まず,大規模言語モデルの文脈内学習能力を活用して推論プログラムを生成する。
我々は,各サブタスクを対応するサブタスクハンドラに委譲することでプログラムを実行する。
論文 参考訳(メタデータ) (2023-05-22T06:11:15Z) - Defining the role of open source software in research reproducibility [0.0]
私はオープンソースソフトウェアの役割について新しい提案をしています。
私はコネクティビズムの観点からその成功の説明を求めている。
信頼を守り、会話を通じてコミュニティを常に構築している、と私は主張する。
論文 参考訳(メタデータ) (2022-04-26T19:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。