Fugu-MT 論文翻訳(概要): Free and Fair Hardware: A Pathway to Copyright Infringement-Free Verilog Generation using LLMs

論文の概要: Free and Fair Hardware: A Pathway to Copyright Infringement-Free Verilog Generation using LLMs

arxiv url: http://arxiv.org/abs/2505.06096v1
Date: Fri, 09 May 2025 14:44:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-12 20:40:10.301083
Title: Free and Fair Hardware: A Pathway to Copyright Infringement-Free Verilog Generation using LLMs
Title（参考訳）: フリーで公正なハードウェア:LCMを用いた著作権侵害フリーなVerilog生成への道
Authors: Sam Bush, Matthew DeLorenzo, Phat Tieu, Jeyavijayan Rajendran,
Abstract要約: 著作権保護されたコードを生成するために, Verilog 学習 LLM のリスクを推定するための評価ベンチマークを提案する。我々は、連続的な事前学習からなるLLM微調整フレームワークを実行し、その結果、Verilog, FreeV のための微調整 Llama モデルを生成する。
参考スコア（独自算出の注目度）: 2.627819353743654
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Limitations in Large Language Model (LLM) capabilities for hardware design tasks, such as generating functional Verilog codes, have motivated various fine-tuning optimizations utilizing curated hardware datasets from open-source repositories. However, these datasets remain limited in size and contain minimal checks on licensing for reuse, resulting in potential copyright violations by fine-tuned LLMs. Therefore, we propose an evaluation benchmark to estimate the risk of Verilog-trained LLMs to generate copyright-protected codes. To minimize this risk, we present an open-source Verilog dataset, FreeSet, containing over 220k files, along with the automated dataset curation framework utilized to provide additional guarantees of fair-use Verilog data. We then execute an LLM fine-tuning framework consisting of continual pre-training, resulting in a fine-tuned Llama model for Verilog, FreeV. Our results indicate that FreeV demonstrates the smallest risk of copyright-infringement among prior works, with only a 3% violation rate. Furthermore, experimental results demonstrate improvements in Verilog generation functionality over its baseline model, improving VerilogEval pass@10 rates by over 10%.
Abstract（参考訳）: 機能的なVerilogコードの生成など、ハードウェア設計タスクのためのLLM(Large Language Model)の機能制限は、オープンソースのリポジトリから収集されたハードウェアデータセットを利用して、さまざまな微調整の最適化を動機付けている。しかし、これらのデータセットはサイズが限られており、再利用のためのライセンスの最小限のチェックが含まれており、微調整されたLCMによる著作権侵害の可能性がある。そこで本研究では,著作権保護コードを生成するために,VerilogでトレーニングされたLLMのリスクを推定する評価ベンチマークを提案する。このリスクを最小限に抑えるために、220k以上のファイルを含むオープンソースのVerilogデータセットFreeSetと、フェアユースなVerilogデータのさらなる保証を提供するために使用される自動データセットキュレーションフレームワークを提案する。次に、連続的な事前学習からなるLLM微調整フレームワークを実行し、その結果、Verilog, FreeV のための微調整 Llama モデルを生成する。以上の結果から,FreeVは著作権侵害のリスクが最少であり,侵害率は3%に過ぎなかったことが示唆された。さらに、実験結果は、ベースラインモデルよりもVerilog生成機能の改善を示し、VerilogEvalpass@10レートを10%以上改善した。

関連論文リスト

Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文参考訳（メタデータ） (2025-06-20T16:27:59Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Nine Ways to Break Copyright Law and Why Our LLM Won't: A Fair Use Aligned Generation Framework [7.941114118462577]
大規模言語モデル (LLM) は、保護されたコンテンツを冗長に再現したり、変換に不十分な修正を加えて著作権侵害を犯すのが一般的である。我々は、LLM出力とフェアユース・ドクトリンとの整合性を明示的に設計した法的基盤の枠組みを開発する。 FuA-LLMは最先端のアプローチと比較して、問題のある出力(最大20%)を大幅に削減する。
論文参考訳（メタデータ） (2025-05-25T12:23:26Z)
SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning [22.76025238218253]
SUVは、大規模言語モデルが著作権のあるコンテンツを記憶することを防ぐために設計された選択的なアンラーニングフレームワークである。私たちは、冗長な著作権のあるコンテンツを、プラウシブルで一貫性のある代替品に置き換えます。我々は,500冊の有名な書籍の大規模データセットを用いて,我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-03-29T02:33:26Z)
VeriContaminated: Assessing LLM-Driven Verilog Coding for Data Contamination [15.52442661491358]
大規模言語モデル(LLM)はコード生成に革命をもたらし、様々な確立されたベンチマークフレームワークで例外的な結果を得た。しかし、データ汚染に関する懸念は、これらの評価の有効性に関する疑問を提起する。我々は、Verilogコード生成のための最先端(SOTA)評価フレームワークを解析する。
論文参考訳（メタデータ） (2025-03-17T12:26:49Z)
Can Large Vision-Language Models Detect Images Copyright Infringement from GenAI? [22.898606027486593]
我々は,様々な画像サンプルを用いて,最先端のLVLMの著作権検出能力を評価することに注力する。我々は、よく知られたIPフィギュアの著作権保護に反する正のサンプルと、これらのフィギュアに類似しているが著作権上の懸念を生じさせない負のサンプルからなるベンチマークデータセットを構築した。実験の結果,LVLMは過度に適合する傾向があり,IP侵害事例として陰性標本の誤分類が生じることが明らかとなった。
論文参考訳（メタデータ） (2025-02-23T15:41:12Z)
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文参考訳（メタデータ） (2025-02-15T04:56:45Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文参考訳（メタデータ） (2024-11-01T20:44:59Z)
Revisiting VerilogEval: A Year of Improvements in Large-Language Models for Hardware Code Generation [6.463959200930805]
オープンソースのVerilogEvalベンチマークのリリース以降,新しい商用およびオープンなモデルを評価する。最先端のモデルでは測定可能な改善が得られます。高いパスレートを達成するためには、迅速なエンジニアリングが不可欠であることに気付きました。
論文参考訳（メタデータ） (2024-08-20T17:58:56Z)
LiCoEval: Evaluating LLMs on License Compliance in Code Generation [27.368667936460508]
大規模言語モデル(LLM)はコード生成に革命をもたらし、開発者によるAIコーディングツールの普及につながった。 LLMは、ライセンス情報を提供することなくライセンス保護されたコードを生成することができ、ソフトウェア製造中に知的財産権侵害を引き起こす可能性がある。本稿では,LLM生成コードにおけるライセンスコンプライアンスの重要かつ未解明な問題に対処する。
論文参考訳（メタデータ） (2024-08-05T14:09:30Z)
OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection [54.775409528658486]
OriGenは、セルフリフレクション機能と新しいデータセット拡張方法論を組み込んだ、完全なオープンソースフレームワークである。このアプローチでは,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張技術を採用している。
論文参考訳（メタデータ） (2024-07-23T07:22:25Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。