論文の概要: VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use
- arxiv url: http://arxiv.org/abs/2605.13989v2
- Date: Mon, 18 May 2026 03:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.90221
- Title: VectraYX-Nano: A 42M-Parameter Spanish Cybersecurity Language Model with Curriculum Learning and Native Tool Use
- Title(参考訳): VectraYX-Nano: カリキュラム学習とネイティブツール使用を備えた42Mのスペインのサイバーセキュリティ言語モデル
- Authors: Juan S. Santillana,
- Abstract要約: VectraYX-Nanoは、41.95Mパラメータのデコーダのみの言語モデルで、スクラッチから訓練されたスペイン語でサイバーセキュリティを提供する。
クラウドコンピューティングの25ドルで8VMの分散パイプラインで組み立てられた170万のスペインのコーパスは、3つのカリキュラムフェーズ(会話42M、サイバーセキュリティ118M、攻撃ツール10M)に分けられる。
SFT (loss 1.74) の後、v2 ブートストラップ-アブレーション参照は 0.775 +/ の会話ゲートを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VectraYX-Nano, a 41.95M-parameter decoder-only language model trained from scratch in Spanish for cybersecurity, with a Latin-American regional focus and native tool invocation via the Model Context Protocol (MCP). The model has four contributions. (i) Corpus: VectraYX-Sec-ES, a 170M-token Spanish corpus assembled by an eight-VM distributed pipeline at ~$25 USD of cloud compute and split into three curriculum phases (conversational 42M, cybersecurity 118M, offensive tooling 10M). (ii) Architecture: a 42M Transformer decoder with GQA, QK-Norm, RMSNorm, SwiGLU, RoPE and z-loss, paired with a domain-balanced 16,384-token byte-fallback BPE. (iii) Curriculum with replay across the three phases yields a monotonic loss descent (9.80 -> 3.17 -> 3.00 -> 2.16); after SFT (loss 1.74) the v2 bootstrap-ablation reference attains a conversational gate of 0.775 +/- 0.043 on B5 over N=4 seeds, and a controlled Phase-2 replay sweep over {0,5,10,25,50}% saturates B5 at >=25% replay. (iv) Two empirical findings, both N=4. A controlled bootstrap-corpus ablation across v2 (OpenSubs), v4 (mC4-ES), and v6 (60/25/15 OpenSubs/mC4/Wiki) exposes a loss-versus-register inversion: lower-perplexity bootstraps yield measurably worse conversational behavior (v2 > v4 > v6 on B5 at every paired seed). The B4 (tool-selection) floor of 0.000 is a corpus-density artifact, not a capacity gate: rebalancing the SFT mixture to tool-use ratio 1:21 yields VectraYX-Nano v7, the released headline configuration, reaching B4 = 0.230 +/- 0.052 at 42M while retaining B1 = 0.332 +/- 0.005 and B5 = 0.725 +/- 0.130; a LoRA replication on a 260M from-scratch mid-tier reaches 0.445 +/- 0.201. The released GGUF is 96 MB in F16, runs sub-second TTFT on commodity hardware under llama.cpp, and is, to our knowledge, the first published Spanish-native cybersecurity LLM with end-to-end MCP integration.
- Abstract(参考訳): VectraYX-Nanoは、スペイン語でスクラッチからトレーニングされた41.95Mのデコーダのみの言語モデルで、ラテンアメリカの地域にフォーカスし、Model Context Protocol (MCP)を介してネイティブツールの呼び出しを行う。
モデルには4つのコントリビューションがある。
(i) コーパス: VectraYX-Sec-ESは、約25ドルのクラウドコンピューティングで8VMの分散パイプラインで組み立てられた170万のスペインのコーパスで、3つのカリキュラムフェーズ(会話42M、サイバーセキュリティ118M、攻撃ツール10M)に分けられる。
(II)アーキテクチャ:GQA、QK-Norm、RMSNorm、SwiGLU、RoPE、z-lossを備えた42Mトランスフォーマーデコーダで、ドメインバランスの16,384バイトのフォールバックBPEとペアリングした。
3) 3相にわたるリプレイのカリキュラムは、単調な損失降下(9.80 -> 3.17 -> 3.00 -> 2.16)を生じ、SFT(loss 1.74)の後、V2ブートストラップ・アブレーション基準は、N=4シード以上のB5上の会話ゲート0.775 +/-0.043を獲得し、制御相2リプレイは、0,5,10,25,50}%飽和度B5を25%リプレイする。
(4)N=4。
v2(OpenSubs)、v4(mC4-ES)、v6(60/25/15 OpenSubs/mC4/Wiki)間の制御されたブートストラップコーパスアブレーションは、損失-逆レジスタインバージョンを露呈する。
B4 (tool-selection) floor of 0.000はコーパス密度の人工物であり、キャパシティゲートではない: SFT混合物をツール使用率1:21に再バランスすると、VectraYX-Nano v7、リリースされたヘッドライン構成であるB4 = 0.230 +/-0.052が42Mに到達し、B1 = 0.332 +/-0.005、B5 = 0.725 +/- 0.130、スクラッチ中間層から260Mのロラ複製は0.445 +/- 0.201に達する。
リリースされたGGUFはF16の96MBで、llama.cppの下でコモディティハードウェア上でサブ秒のTTFTを実行する。
関連論文リスト
- ML Defender (aRGus NDR): An Open-Source Embedded ML NIDS for Botnet and Anomalous Traffic Detection in Resource-Constrained Organizations [0.0]
本稿では,C++20で構築された,150-200 USDのコモディティハードウェア上にデプロイ可能なオープンソースのネットワーク侵入検知システムを提案する。
ML Defenderは、eBPF/XDPパケットキャプチャ、ZeroMQトランスポート、Protocol Buffersシリアライゼーションの6成分パイプラインを実装している。
Ransomware Threat Winsポリシーは、ML推論を用いて両方のスコアの最大演算を選択し、偽陽性を抑える。
論文 参考訳(メタデータ) (2026-04-03T05:20:13Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development [0.0]
パシュトコープ (PashtoCorp) は、パシュト語(英語版)の1.25ビリオン語コーパスである。
PashtoCorpは2.81億の文書にまたがる1.25Bワードで、OSCARのPashtoサブセットの40倍、かつての最大の専用Pashtoコーパスの83倍の大きさである。
論文 参考訳(メタデータ) (2026-03-17T10:36:18Z) - David vs. Goliath: A comparative study of different-sized LLMs for code generation in the domain of automotive scenario generation [1.6752458252726459]
大きな言語モデル(LLM)を持つNL-to-Scenic生成は、少ないデータ、限られたメトリクスに悩まされる。
NL2Scenicは146組のNL/Scenicペアを持つオープンデータセットとフレームワークであり、難易度の高い30ケースのテスト分割とサンプルレトリバーを紹介する。
4つのプロプライエタリ(GPT-4o, GPT-5, Claude-Sonnet-4, Gemini-2.5-pro)と9つのオープンソースコードモデル(Qwen2.5Coder 0.5B-32B; CodeLlama 7B/13B/34B)を評価した。
論文 参考訳(メタデータ) (2025-10-15T21:37:02Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。