論文の概要: Can Large Language Models Automate the Refinement of Cellular Network Specifications?
- arxiv url: http://arxiv.org/abs/2507.04214v1
- Date: Sun, 06 Jul 2025 02:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.068122
- Title: Can Large Language Models Automate the Refinement of Cellular Network Specifications?
- Title(参考訳): 大規模言語モデルはセルラーネットワーク仕様の修正を自動化するか?
- Authors: Jianshuo Dong, Tianyi Zhang, Feng Yan, Yuanjie Li, Hewu Li, Han Qiu,
- Abstract要約: 本稿では,大規模言語モデル (LLM) のセルラーネットワーク仕様自動修正への適用性について検討する。
トップモデルでは、5つのトライアルで200のテストケース中127以上でセキュリティ関連の弱点を発見することができる。
30の細胞攻撃の評価は、完全な自動化を達成するためのオープンな課題を特定する。
- 参考スコア(独自算出の注目度): 12.648016409257501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cellular networks serve billions of users globally, yet concerns about reliability and security persist due to weaknesses in 3GPP standards. However, traditional analysis methods, including manual inspection and automated tools, struggle with increasingly expanding cellular network specifications. This paper investigates the feasibility of Large Language Models (LLMs) for automated cellular network specification refinement. To advance it, we leverage 200,000+ approved 3GPP Change Requests (CRs) that document specification revisions, constructing a valuable dataset for domain tasks. We introduce CR-eval, a principled evaluation framework, and benchmark 16 state-of-the-art LLMs, demonstrating that top models can discover security-related weaknesses in over 127 out of 200 test cases within five trials. To bridge potential gaps, we explore LLM specialization techniques, including fine-tuning an 8B model to match or surpass advanced LLMs like GPT-4o and DeepSeek-R1. Evaluations on 30 cellular attacks identify open challenges for achieving full automation. These findings confirm that LLMs can automate the refinement of cellular network specifications and provide valuable insights to guide future research in this direction.
- Abstract(参考訳): セルラーネットワークは世界中に何十億ものユーザーを提供しているが、3GPP標準の弱点のために信頼性とセキュリティに関する懸念は持続している。
しかし、手動検査や自動ツールを含む従来の分析手法は、セルラーネットワークの仕様の拡充に苦慮している。
本稿では,大規模言語モデル (LLM) のセルラーネットワーク仕様自動修正への適用性について検討する。
これを進めるために、20万以上の承認された3GPP変更要求(CR)を活用し、仕様修正を文書化し、ドメインタスクに価値のあるデータセットを構築します。
我々は、原則化された評価フレームワークであるCR-evalと、最先端のLLM16のベンチマークを導入し、トップモデルが5つのトライアルで200のテストケース中127以上でセキュリティ関連の弱点を発見できることを実証した。
GPT-4o や DeepSeek-R1 のような先進的な LLM に適合または超越する 8B モデルの微調整を含む LLM の特殊化手法について検討する。
30の細胞攻撃の評価は、完全な自動化を達成するためのオープンな課題を特定する。
これらの結果から,LSMはセルラーネットワーク仕様の洗練を自動化し,今後の研究の指針となる貴重な洞察を得られることが確認された。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements [1.4433703131122861]
本稿では,大規模言語モデル(LLM)を用いた自動浸透試験のためのオープンベンチマークを提案する。
GPT-4o や LLama 3.1-405B などの LLM の性能を最先端の PentestGPT ツールを用いて評価した。
LLama 3.1 は GPT-4o 以上のエッジを実証するが, 両モデルとも, 最小限の人的支援を伴っても, エンド・ツー・エンドの浸透試験を行なわなかった。
論文 参考訳(メタデータ) (2024-10-22T16:18:41Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - NYU CTF Bench: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security [28.125179435861316]
大規模言語モデル(LLM)は、さまざまなドメインにデプロイされているが、Capture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。
我々は、スケーラブルでオープンソースのベンチマークデータベースを作成することで、CTFの課題を解決する上で、LCMを評価する新しい手法を開発した。
このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。
論文 参考訳(メタデータ) (2024-06-08T22:21:42Z) - Large Language Models as Automated Aligners for benchmarking
Vision-Language Models [48.4367174400306]
VLM(Vision-Language Models)は新しいレベルの高度化に達し、複雑な認知と推論タスクの実行において顕著な能力を示している。
既存の評価ベンチマークは、厳密で手作りのデータセットを主に頼りにしており、人為的なモデルと人間の知性との整合性を評価する上で、重大な制限に直面している。
本研究では,LLMを有能なキュレーションとして探求し,自動データキュレーションとアセスメントによってVLMと人間の知性と価値のアライメントを測定するAuto-Benchを用いて,その限界に対処する。
論文 参考訳(メタデータ) (2023-11-24T16:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。