Fugu-MT 論文翻訳(概要): On the Possibility of Breaking Copyleft Licenses When Reusing Code Generated by ChatGPT

論文の概要: On the Possibility of Breaking Copyleft Licenses When Reusing Code Generated by ChatGPT

arxiv url: http://arxiv.org/abs/2502.05023v1
Date: Fri, 07 Feb 2025 15:54:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:33.203329
Title: On the Possibility of Breaking Copyleft Licenses When Reusing Code Generated by ChatGPT
Title（参考訳）: ChatGPTによるコード再利用における著作権侵害の可能性について
Authors: Gaia Colombo, Leonardo Mariani, Daniela Micucci, Oliviero Riganelli,
Abstract要約: さまざまな設定とプロンプトを使って7万以上のメソッド実装を生成します。より大きなコンテキストは、コピーレフトコードを再現する可能性を高めるが、より高い温度設定はこの問題を軽減することができる。
参考スコア（独自算出の注目度）: 4.8748194765816955
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI assistants can help developers by recommending code to be included in their implementations (e.g., suggesting the implementation of a method from its signature). Although useful, these recommendations may mirror copyleft code available in public repositories, exposing developers to the risk of reusing code that they are allowed to reuse only under certain constraints (e.g., a specific license for the derivative software). This paper presents a large-scale study about the frequency and magnitude of this phenomenon in ChatGPT. In particular, we generate more than 70,000 method implementations using a range of configurations and prompts, revealing that a larger context increases the likelihood of reproducing copyleft code, but higher temperature settings can mitigate this issue.
Abstract（参考訳）: AIアシスタントは、実装に含まれるコード(例えば、その署名からメソッドの実装を提案する)を推奨することで、開発者を支援することができる。有用ではあるが、これらのレコメンデーションは、パブリックリポジトリで利用可能なコピーレフトコードを反映する可能性がある。本稿では,ChatGPTにおけるこの現象の頻度と大きさについて大規模な研究を行った。特に,様々な構成とプロンプトを用いて70,000以上のメソッドの実装を生成し,より広いコンテキストでコピーレフトコードを再現する可能性を高めるが,高温設定によりこの問題を軽減できることを示した。

関連論文リスト

Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model [99.16364381244445]
現代の言語モデル(LM)は、トレーニングデータの一部を記憶し、動詞のスパンを出力する傾向がある。提案するAnchored Decodingは,動詞の模倣を抑えるためのプラグアンドプレイ推論時間法である。本手法は,著作権リスクとユーティリティの長期評価において,6組のモデルペアで評価する。
論文参考訳（メタデータ） (2026-02-06T19:00:14Z)
LLavaCode: Compressed Code Representations for Retrieval-Augmented Code Generation [8.868449925993994]
コードLLMで解釈可能なコンパクトで意味豊かな表現にコードを圧縮するフレームワークであるLlavaCodeを紹介した。本実験は, 圧縮コンテキストにより, ライン完了作業におけるTTFT(Time-to-First-Token)の20～38%の削減が可能であることを実証した。
論文参考訳（メタデータ） (2025-10-22T14:49:21Z)
CodeRAG: Finding Relevant and Necessary Knowledge for Retrieval-Augmented Repository-Level Code Completion [11.329578913209623]
リポジトリレベルのコード補完は、リポジトリからのより広範な情報に基づいて、未完成のコードを自動的に予測する。 CodeRAGは、リポジトリレベルのコード補完を検索するために必要な知識を特定するためのフレームワークである。
論文参考訳（メタデータ） (2025-09-19T15:57:40Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Refactoring Codebases through Library Design [5.7905916281782215]
再利用可能なライブラリを生成するためのベンチマークと方法を提案する。最先端のコードエージェントと比較すると、LibrarianはMinicodeの圧縮と正確性の両方において強力な結果が得られる。コードとベンチマークはhttps://code-refactor.io/.com/で公開しています。
論文参考訳（メタデータ） (2025-05-26T07:26:33Z)
CodeRAG: Supportive Code Retrieval on Bigraph for Real-World Code Generation [69.684886175768]
大規模言語モデル(LLM)は、自動コード生成において有望なパフォーマンスを示している。本稿では,検索拡張コード生成フレームワークであるCodeRAGを提案する。実験によると、CodeRAGはRAGのシナリオと比較して大幅に改善されている。
論文参考訳（メタデータ） (2025-04-14T09:51:23Z)
CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs [6.936336826531964]
Retrieval-Augmented Generation (RAG)は、検索したコード例をプロンプトに組み込むことで、コーディングタスクを強化する。既存の即時圧縮技術は自然言語に重点を置いており、コードの適切なソリューションが欠如している。 RAGに組み込む前にコード例を圧縮するフレームワークであるCodePromptZipを提案する。
論文参考訳（メタデータ） (2025-02-19T23:15:23Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保持するために追加情報を挿入する。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
CodeCloak: A Method for Evaluating and Mitigating Code Leakage by LLM Code Assistants [22.342331134131744]
CodeCloakは、コードアシスタントサービスに送信する前にプロンプトを操作する、新しいディープ強化学習エージェントである。 CodeCloakは、次の2つの矛盾した目標を達成することを目指している。
論文参考訳（メタデータ） (2024-04-13T19:30:58Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文参考訳（メタデータ） (2024-01-09T12:12:50Z)
A^3-CodGen: A Repository-Level Code Generation Framework for Code Reuse with Local-Aware, Global-Aware, and Third-Party-Library-Aware [13.27883339389175]
本稿では,A3-CodGenと呼ばれる新しいコード生成フレームワークを提案する。その結果、A3-CodGenフレームワークを採用することで、コードリポジトリ情報をLLMに抽出、ヒューズ、フィードし、より正確で、効率的で、再利用性の高いコードを生成します。
論文参考訳（メタデータ） (2023-12-10T05:36:06Z)
CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文参考訳（メタデータ） (2023-06-05T20:39:08Z)
Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。 Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文参考訳（メタデータ） (2022-11-29T18:56:33Z)
DeSkew-LSH based Code-to-Code Recommendation Engine [3.7011129410662558]
ソースコード上の機械学習のための新しいコード・ツー・コードレコメンデーションエンジンであるemphSenatusを紹介する。 SenatusのコアとなるemphDe-Skew LSHは、ローカリティに敏感なハッシュアルゴリズムで、高速(サブ線形時間)検索のためにデータをインデックスする。コード・ツー・コード・レコメンデーションのタスクにおいて、Senatusはパフォーマンスを6.7%向上し、クエリ時間16xはFacebook Aromaよりも高速であることを示す。
論文参考訳（メタデータ） (2021-11-05T16:56:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。