Fugu-MT 論文翻訳(概要): VeriContaminated: Assessing LLM-Driven Verilog Coding for Data Contamination

論文の概要: VeriContaminated: Assessing LLM-Driven Verilog Coding for Data Contamination

arxiv url: http://arxiv.org/abs/2503.13572v1
Date: Mon, 17 Mar 2025 12:26:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:11.751102
Title: VeriContaminated: Assessing LLM-Driven Verilog Coding for Data Contamination
Title（参考訳）: VeriContaminateed:データ汚染のためのLLM駆動のVerilog符号化の評価
Authors: Zeng Wang, Minghao Shao, Jitendra Bhandari, Likhitha Mankali, Ramesh Karri, Ozgur Sinanoglu, Muhammad Shafique, Johann Knechtel,
Abstract要約: 大規模言語モデル(LLM)はコード生成に革命をもたらし、様々な確立されたベンチマークフレームワークで例外的な結果を得た。しかし、データ汚染に関する懸念は、これらの評価の有効性に関する疑問を提起する。我々は、Verilogコード生成のための最先端(SOTA)評価フレームワークを解析する。
参考スコア（独自算出の注目度）: 15.52442661491358
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have revolutionized code generation, achieving exceptional results on various established benchmarking frameworks. However, concerns about data contamination - where benchmark data inadvertently leaks into pre-training or fine-tuning datasets - raise questions about the validity of these evaluations. While this issue is known, limiting the industrial adoption of LLM-driven software engineering, hardware coding has received little to no attention regarding these risks. For the first time, we analyze state-of-the-art (SOTA) evaluation frameworks for Verilog code generation (VerilogEval and RTLLM), using established methods for contamination detection (CCD and Min-K% Prob). We cover SOTA commercial and open-source LLMs (CodeGen2.5, Minitron 4b, Mistral 7b, phi-4 mini, LLaMA-{1,2,3.1}, GPT-{2,3.5,4o}, Deepseek-Coder, and CodeQwen 1.5), in baseline and fine-tuned models (RTLCoder and Verigen). Our study confirms that data contamination is a critical concern. We explore mitigations and the resulting trade-offs for code quality vs fairness (i.e., reducing contamination toward unbiased benchmarking).
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成に革命をもたらし、様々な確立されたベンチマークフレームワークで例外的な結果を得た。しかし、データ汚染に関する懸念 - ベンチマークデータが事前にトレーニングされたデータセットや微調整されたデータセットに不注意にリークする - は、これらの評価の有効性に関する疑問を提起する。この問題はLLM駆動のソフトウェアエンジニアリングの産業的採用を制限するものとして知られているが、ハードウェアコーディングはこれらのリスクに対してほとんど関心を示さなかった。汚染検出のための確立された方法(CCDとMin-K% Prob)を用いて,Verilogコード生成のためのSOTA(State-of-the-art)評価フレームワークを初めて分析した。我々は、ベースラインおよび微調整モデル(RTLCoderとVerigen)において、SOTAの商用およびオープンソースLCM(CodeGen2.5, Minitron 4b, Mistral 7b, phi-4 mini, LLaMA-{1,2,3.1}, GPT-{2,3.5,4o}, Deepseek-Coder, CodeQwen 1.5)をカバーしている。我々の研究は、データの汚染が重要な問題であることを確認した。コード品質と公平性(すなわち、バイアスのないベンチマークに対する汚染を減らすこと)に対する緩和と結果として生じるトレードオフについて検討する。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Rethinking the effects of data contamination in Code Intelligence [15.99780798470139]
本稿では,コードインテリジェンスタスクにおけるきめ細かいデータ汚染について,系統的研究を行った。本研究は,汚染が必然的に性能過大評価につながるという従来の信念に異議を唱えるものである。
論文参考訳（メタデータ） (2025-06-03T12:15:44Z)
Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination [18.006532081289627]
潜在的なデータ汚染下でのコードLLMを評価するための新しいベンチマークスイートであるツールを提案する。ツールは複数のエージェントを使用して、コアロジックを変更することなくコンテキストを抽出し、変更し、意味的に等価なバリエーションを生成する。その結果、ツールが汚染リスク下での推論能力を効果的にベンチマークし、多様な問題セットを生成し、一貫性と信頼性を保証できることが判明した。
論文参考訳（メタデータ） (2025-03-06T06:56:59Z)
SnipGen: A Mining Repository Framework for Evaluating LLMs for Code [51.07471575337676]
言語モデル(LLM)は、コードリポジトリを含む広範なデータセットに基づいてトレーニングされる。それらの有効性を評価することは、トレーニングに使用されるデータセットと評価に使用されるデータセットとが重複する可能性があるため、大きな課題となる。 SnipGenは、コード生成のために、様々な下流タスクをまたいだ迅速なエンジニアリングを活用するように設計された包括的なリポジトリマイニングフレームワークである。
論文参考訳（メタデータ） (2025-02-10T21:28:15Z)
LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks [15.584759853972992]
大規模言語モデル(LLM)は、コード生成やプログラムの自動修復といったソフトウェア工学(SE)タスクで広く利用されている。広範囲かつしばしば開示されていない事前トレーニングデータセットへの依存は、データ漏洩に関する重大な懸念を提起する。本稿では,LLM に関する 83 SE ベンチマークにおいて,データ漏洩の大規模解析を行った。
論文参考訳（メタデータ） (2025-02-10T07:33:49Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文参考訳（メタデータ） (2025-01-20T06:35:01Z)
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。 GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文参考訳（メタデータ） (2024-12-19T18:58:04Z)
AntiLeak-Bench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文参考訳（メタデータ） (2024-12-18T09:53:12Z)
CAP: Data Contamination Detection via Consistency Amplification [20.135264289668463]
大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。 CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
論文参考訳（メタデータ） (2024-10-19T06:33:33Z)
Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges [3.0455427910850785]
我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
論文参考訳（メタデータ） (2024-09-16T02:04:33Z)
COAST: Enhancing the Code Debugging Ability of LLMs through Communicative Agent Based Data Synthesis [29.667170755786508]
大規模言語モデルの能力を評価するためのベンチマークであるEVALを紹介する。我々は,マルチエージェントシステムを用いて高品質な学習データを生成する,コミュニケーティブエージェントベースのデータ合成フレームワークを提案する。以上の結果から,COAST生成データは人為的・GPT-4生成データよりも優れていた。
論文参考訳（メタデータ） (2024-08-09T11:35:44Z)
How Much are Large Language Models Contaminated? A Comprehensive Survey and the LLMSanitize Library [68.10605098856087]
大規模言語モデル(LLM)は、ビジネスアプリケーションやAIの資金調達でますます利用されている。 LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。我々はLLMSanitizeというオープンソースのPythonライブラリをリリースし、主要な汚染検知アルゴリズムを実装した。
論文参考訳（メタデータ） (2024-03-31T14:32:02Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
Data Contamination Through the Lens of Time [21.933771085956426]
大規模言語モデル(LLM)は一般に利用可能なベンチマークを評価することでしばしばサポートされる。このプラクティスは、データ汚染の懸念、すなわち、トレーニングデータに明示的にまたは暗黙的に含まれている例を評価することを提起する。 GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行った。
論文参考訳（メタデータ） (2023-10-16T17:51:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。