Fugu-MT 論文翻訳(概要): Fine-tuning RoBERTa for CVE-to-CWE Classification: A 125M Parameter Model Competitive with LLMs

論文の概要: Fine-tuning RoBERTa for CVE-to-CWE Classification: A 125M Parameter Model Competitive with LLMs

arxiv url: http://arxiv.org/abs/2603.14911v1
Date: Mon, 16 Mar 2026 07:15:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:36.125901
Title: Fine-tuning RoBERTa for CVE-to-CWE Classification: A 125M Parameter Model Competitive with LLMs
Title（参考訳）: CVE-to-CWE分類のための微調整RoBERTa:LLMと競合する125Mパラメータモデル
Authors: Nikita Mosievskiy,
Abstract要約: 我々は,AIリフィニングされたCWEラベルを用いた234,770の大規模トレーニングデータセットを構築した。ホールドアウトテストセット(27,780のサンプル、205のCWEクラス)では、87.4%のトップ1精度を達成した。外部のCTI-Benchベンチマーク(NeurIPS 2024)では、75.6%の精度が達成されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a fine-tuned RoBERTa-base classifier (125M parameters) for mapping Common Vulnerabilities and Exposures (CVE) descriptions to Common Weakness Enumeration (CWE) categories. We construct a large-scale training dataset of 234,770 CVE descriptions with AI-refined CWE labels using Claude Sonnet 4.6, and agreement-filtered evaluation sets where NVD and AI labels agree. On our held-out test set (27,780 samples, 205 CWE classes), the model achieves 87.4% top-1 accuracy and 60.7% Macro F1 -- a +15.5 percentage-point Macro F1 gain over a TF-IDF baseline that already reaches 84.9% top-1, demonstrating the model's advantage on rare weakness categories. On the external CTI-Bench benchmark (NeurIPS 2024), the model achieves 75.6% strict accuracy (95% CI: 72.8-78.2%) -- statistically indistinguishable from Cisco Foundation-Sec-8B-Reasoning (75.3%, 8B parameters) at 64x fewer parameters. We release the dataset, model, and training code.
Abstract（参考訳）: 共通脆弱性と露出(CVE)記述をCWE(Common Weakness Enumeration)カテゴリにマッピングするための微調整RoBERTaベース分類器(125Mパラメータ)を提案する。我々は、Claude Sonnet 4.6を用いて、AI修正CWEラベルを用いた234,770のCVE記述からなる大規模なトレーニングデータセットを構築し、NVDとAIラベルが一致する合意付き評価セットを構築した。保持されたテストセット(27,780のサンプル、205のCWEクラス)では、87.4%のトップ1精度と60.7%のマクロF1 -- a +15.5パーセンテージのマクロF1が、すでに84.9%のトップ1に達するTF-IDFベースラインを越え、希少な弱点カテゴリに対するモデルの優位性を示す。外部のCTI-Benchベンチマーク(NeurIPS 2024)では、モデルの精度は75.6%(95% CI: 72.8-78.2%)で、Cisco Foundation-Sec-8B-Reasoning (75.3%、8Bパラメータ)と64倍のパラメータで統計的に区別できない。データセット、モデル、トレーニングコードをリリースします。

関連論文リスト

EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。 TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。 200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文参考訳（メタデータ） (2025-12-29T14:48:40Z)
Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures [87.75098311090642]
現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
論文参考訳（メタデータ） (2025-10-16T12:23:13Z)
Exploring the Hierarchical Reasoning Model for Small Natural-Image Classification Without Augmentation [51.56484100374058]
MNIST、CIFAR-10、CIFAR-100で意図的に生の条件下で評価される。拡張性のない小型画像分類では、HRMは単純な畳み込みアーキテクチャと競合するものではないと結論付けている。
論文参考訳（メタデータ） (2025-10-04T01:22:41Z)
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models [194.64264251080454]
GLM-4.5はオープンソースのMixture-of-Experts(MoE)大言語モデルであり,総パラメータは355B,アクティベートパラメータは32Bである。 23Tトークンのマルチステージトレーニングと、エキスパートモデルのイテレーションと強化学習による総合的なポストトレーニングを通じて、GLM-4.5はエージェント、推論、コーディングタスクにわたって強力なパフォーマンスを実現している。 GLM-4.5(355Bパラメータ)とGLM-4.5-Air(106Bパラメータ)をそれぞれリリースし、推論とエージェントAIシステムの研究を進めた。
論文参考訳（メタデータ） (2025-08-08T17:21:06Z)
SLEEPYLAND: trust begins with fair evaluation of automatic sleep staging models [0.0]
本稿では,オープンソースの睡眠ステージ評価フレームワークであるSLEEPYLANDを紹介する。ドメイン内睡眠記録(ID)は220万時間以上、ドメイン外睡眠記録(OOD)は84万時間以上である。本稿では,SoMNUSを紹介する。SoMNUSは,ソフト投票によるアーキテクチャとチャネル設定のモデルを組み合わせたアンサンブルである。
論文参考訳（メタデータ） (2025-06-10T08:46:19Z)
Dr. SoW: Density Ratio of Strong-over-weak LLMs for Reducing the Cost of Human Annotation in Preference Tuning [15.776175440446414]
本稿では,人間のアノテーションへの依存を解消するコスト効率の高い方法であるDr.SoW(Density Ratio of Strong over Weak)を紹介する。 Dr.SoW は報奨信号として、より整列した LLM と低整列の LLM の対数密度比を用いる。 Dr.SoWによるデータを用いたLlama-3-8B-インストラクタを選好する。
論文参考訳（メタデータ） (2024-11-04T18:54:39Z)
Stacking-Enhanced Bagging Ensemble Learning for Breast Cancer Classification with CNN [0.24578723416255752]
本稿では,乳がん分類のためのBaggingおよびスタックングアンサンブル学習手法に基づくCNN分類ネットワークを提案する。このモデルは入力画像の高速かつ正確な分類を行うことができる。二項分類(乳がんの有無)では、精度は98.84%に達し、5級分類では98.34%に達した。
論文参考訳（メタデータ） (2024-07-15T09:44:43Z)
Uncertainty-inspired Open Set Learning for Retinal Anomaly Identification [71.06194656633447]
9つの網膜条件の基底像をトレーニングし,不確実性に着想を得たオープンセット(UIOS)モデルを構築した。しきい値戦略を持つUIOSモデルはF1スコア99.55%、97.01%、91.91%を達成した。 UIOSは、高い不確実性スコアを正しく予測し、非ターゲットの網膜疾患、低品質の眼底画像、および非基本画像のデータセットを手動でチェックする必要があることを示唆した。
論文参考訳（メタデータ） (2023-04-08T10:47:41Z)
Co-supervised learning paradigm with conditional generative adversarial networks for sample-efficient classification [8.27719348049333]
本稿では,サンプル効率のよい協調学習パラダイム(SEC-CGAN)を提案する。 SEC-CGANは、分類器と共にトレーニングされ、トレーニングプロセス中に注釈付きデータにセマンティクスを条件付き、信頼性に配慮した合成例を補完する。実験により、SEC-CGAN は外部分類器 GAN とベースライン ResNet-18 の分類器より優れていることが示された。
論文参考訳（メタデータ） (2022-12-27T19:24:31Z)
Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文参考訳（メタデータ） (2022-06-15T20:44:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。