Fugu-MT 論文翻訳(概要): Benchmarking Practices in LLM-driven Offensive Security: Testbeds, Metrics, and Experiment Design

論文の概要: Benchmarking Practices in LLM-driven Offensive Security: Testbeds, Metrics, and Experiment Design

arxiv url: http://arxiv.org/abs/2504.10112v1
Date: Mon, 14 Apr 2025 11:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 19:04:47.264473
Title: Benchmarking Practices in LLM-driven Offensive Security: Testbeds, Metrics, and Experiment Design
Title（参考訳）: LLM駆動の攻撃セキュリティにおけるベンチマークプラクティス:テストベッド、メトリクス、実験設計
Authors: Andreas Happe, Jürgen Cito,
Abstract要約: 大きな言語モデル(LLM)は、攻撃的な浸透テストツールを駆動するための強力なアプローチとして現れています。本稿では,Large Language Model (LLM) による攻撃の評価に使用される方法論とベンチマーク手法について分析する。
参考スコア（独自算出の注目度）: 3.11537581064266
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have emerged as a powerful approach for driving offensive penetration-testing tooling. This paper analyzes the methodology and benchmarking practices used for evaluating Large Language Model (LLM)-driven attacks, focusing on offensive uses of LLMs in cybersecurity. We review 16 research papers detailing 15 prototypes and their respective testbeds. We detail our findings and provide actionable recommendations for future research, emphasizing the importance of extending existing testbeds, creating baselines, and including comprehensive metrics and qualitative analysis. We also note the distinction between security research and practice, suggesting that CTF-based challenges may not fully represent real-world penetration testing scenarios.
Abstract（参考訳）: 大きな言語モデル(LLM)は、攻撃的な浸透テストツールを駆動するための強力なアプローチとして現れています。本稿では,大規模言語モデル(LLM)による攻撃の評価に使用される方法論とベンチマークの実践について分析し,サイバーセキュリティにおけるLLMの攻撃的利用に着目した。我々は15のプロトタイプとそのテストベッドを詳述した16の研究論文をレビューする。既存のテストベッドを拡張することの重要性を強調し、ベースラインを作成し、包括的なメトリクスと質的分析を含む、今後の研究に実行可能なレコメンデーションを提供する。また、セキュリティ研究と実践の区別についても言及し、CTFベースの課題が現実世界の浸透テストシナリオを完全に表現していないことを示唆している。

関連論文リスト

OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
Leveraging LLMs to Evaluate Usefulness of Document [25.976948104719746]
本稿では,ユーザの検索コンテキストと行動データを大規模言語モデルに統合する,新たなユーザ中心評価フレームワークを提案する。本研究は,文脈情報や行動情報に精通したLLMが有用性を正確に評価できることを実証する。また,本手法で作成したラベルをユーザ満足度予測に適用し,実世界の実験により,これらのラベルが満足度予測モデルの性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-06-10T09:44:03Z)
Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests [0.0]
本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。その結果、人間とAIのアプローチの強みと限界が明らかになりました。
論文参考訳（メタデータ） (2025-03-15T10:54:35Z)
LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文参考訳（メタデータ） (2025-03-04T12:55:07Z)
Test Wars: A Comparative Study of SBST, Symbolic Execution, and LLM-Based Approaches to Unit Test Generation [11.037212298533069]
大規模言語モデル(LLM)は、自動テストを生成する新しい機会を開いた。本稿では,SBSTのEvoSuite,シンボル実行のKex,LLMベースのテスト生成のTestSparkという3つのツールを用いた自動テスト生成手法について検討する。以上の結果から,LSMベースのテスト生成は有望であるが,従来の手法には及ばないことがわかった。
論文参考訳（メタデータ） (2025-01-17T13:48:32Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
Exploring Critical Testing Scenarios for Decision-Making Policies: An LLM Approach [14.32199539218175]
本稿では,LLM(Adaptable Large Language Model)によるオンラインテストフレームワークを提案する。具体的には、LLMの世界の知識と推論能力を活用するために、テンプレート付きプロンプトエンジニアリングを備えた「ジェネレーション・テスト・フィードバック」パイプラインを設計する。
論文参考訳（メタデータ） (2024-12-09T17:27:04Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements [1.4433703131122861]
本稿では,大規模言語モデル(LLM)を用いた自動浸透試験のためのオープンベンチマークを提案する。 GPT-4o や LLama 3.1-405B などの LLM の性能を最先端の PentestGPT ツールを用いて評価した。 LLama 3.1 は GPT-4o 以上のエッジを実証するが, 両モデルとも, 最小限の人的支援を伴っても, エンド・ツー・エンドの浸透試験を行なわなかった。
論文参考訳（メタデータ） (2024-10-22T16:18:41Z)
MIBench: A Comprehensive Framework for Benchmarking Model Inversion Attack and Defense [42.56467639172508]
Model Inversion (MI)攻撃は、ターゲットモデルの出力情報を活用して、プライバシに敏感なトレーニングデータを再構築することを目的としている。我々は、モデル反転攻撃と防御の体系的評価のためのMIBenchという最初の実用的なベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-07T16:13:49Z)
TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models [8.22619177301814]
クラスレベルのLLMベースのテストケース生成のためのベンチマークであるTestBenchを紹介する。 GitHub上の9つの実世界の大規模プロジェクトから108のJavaプログラムのデータセットを構築します。本稿では,構文的正当性,コンパイル的正当性,テスト的正当性,コードカバレッジ率,欠陥検出率という,テストケースの5つの側面を考慮した詳細な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-26T06:18:06Z)
CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher [1.6652242654250329]
本研究は,Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers (CIPHER)を開発した。私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。本研究では,完全自動ペンテスティング・シミュレーション・ベンチマークを確立するために,書込みテストの拡張手法であるFinderings, Action, Reasoning, Results (FARR) Flow Augmentationを紹介する。
論文参考訳（メタデータ） (2024-08-21T14:24:04Z)
Online Safety Analysis for LLMs: a Benchmark, an Assessment, and a Path Forward [9.218557081971708]
大規模言語モデル(LLM)は多くの分野にまたがって広く応用されている。その限定的な解釈可能性によって、複数の側面からの安全な操作が懸念される。近年,LLMの品質保証手法の開発が進められている。
論文参考訳（メタデータ） (2024-04-12T14:55:16Z)
Exploring the Power of Topic Modeling Techniques in Analyzing Customer Reviews: A Comparative Analysis [0.0]
大量のテキストデータをオンラインで分析するために、機械学習と自然言語処理アルゴリズムがデプロイされている。本研究では,顧客レビューに特化して用いられる5つのトピックモデリング手法について検討・比較する。以上の結果から,BERTopicはより意味のあるトピックを抽出し,良好な結果を得ることができた。
論文参考訳（メタデータ） (2023-08-19T08:18:04Z)
Pre-trained Embeddings for Entity Resolution: An Experimental Analysis [Experiment, Analysis & Benchmark] [65.11858854040544]
我々は、17の確立されたベンチマークデータセットに対して、12のポピュラー言語モデルの徹底的な実験分析を行う。まず、全ての入力エンティティを高密度な埋め込みベクトルに変換するためのベクトル化のオーバーヘッドを評価する。次に,そのブロッキング性能を調査し,詳細なスケーラビリティ解析を行い,最先端のディープラーニングベースのブロッキング手法と比較する。第3に、教師なしマッチングと教師なしマッチングの両方に対して、相対的な性能で締めくくります。
論文参考訳（メタデータ） (2023-04-24T08:53:54Z)
Poisoning Attacks and Defenses on Artificial Intelligence: A Survey [3.706481388415728]
データ中毒攻撃は、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズ中にモデルの精度を低下させる攻撃の一種である。この研究は、この種の攻撃に対処する最新の文献で見つかった最も関連性の高い洞察と発見をまとめたものである。実環境下での幅広いMLモデルに対するデータ中毒の影響を比較検討し,本研究の徹底的な評価を行った。
論文参考訳（メタデータ） (2022-02-21T14:43:38Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。