論文の概要: Capture the Flags: Family-Based Evaluation of Agentic LLMs via Semantics-Preserving Transformations
- arxiv url: http://arxiv.org/abs/2602.05523v1
- Date: Thu, 05 Feb 2026 10:30:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.885633
- Title: Capture the Flags: Family-Based Evaluation of Agentic LLMs via Semantics-Preserving Transformations
- Title(参考訳): フラッグの捕獲:セマンティックスによるエージェントLDMの家族による評価-保存的変換
- Authors: Shahin Honarvar, Amber Gorzynski, James Lee-Jones, Harry Coppock, Marek Rei, Joseph Ryan, Alastair F. Donaldson,
- Abstract要約: エージェント型大規模言語モデル(LLM)は、キャプチャー・ザ・フラッグベンチマークを使用してサイバーセキュリティタスクでますます評価されている。
我々はCTFチャレンジファミリーを導入し、単一のCTFを意味論的に等価な課題のファミリーを生成する基盤として利用する。
我々は,Pythonの課題からCTFファミリーを生成する新しいツールであるEvolve-CTFを紹介した。
- 参考スコア(独自算出の注目度): 9.234598988803407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic large language models (LLMs) are increasingly evaluated on cybersecurity tasks using capture-the-flag (CTF) benchmarks. However, existing pointwise benchmarks have limited ability to shed light on the robustness and generalisation abilities of agents across alternative versions of the source code. We introduce CTF challenge families, whereby a single CTF is used as the basis for generating a family of semantically-equivalent challenges via semantics-preserving program transformations. This enables controlled evaluation of agent robustness to source code transformations while keeping the underlying exploit strategy fixed. We introduce a new tool, Evolve-CTF, that generates CTF families from Python challenges using a range of transformations. Using Evolve-CTF to derive families from Cybench and Intercode challenges, we evaluate 13 agentic LLM configurations with tool access. We find that models are remarkably robust to intrusive renaming and code insertion-based transformations, but that composed transformations and deeper obfuscation affect performance by requiring more sophisticated use of tools. We also find that enabling explicit reasoning has little effect on solution success rates across challenge families. Our work contributes a valuable technique and tool for future LLM evaluations, and a large dataset characterising the capabilities of current state-of-the-art models in this domain.
- Abstract(参考訳): エージェント型大規模言語モデル(LLM)は、キャプチャー・ザ・フラッグ(CTF)ベンチマークを使用してサイバーセキュリティタスクでますます評価されている。
しかし、既存のポイントワイズベンチマークは、ソースコードの代替バージョンにまたがるエージェントの堅牢性と一般化能力に光を当てる能力に制限がある。
CTFチャレンジファミリーを導入し、セマンティックス保存プログラム変換を通じて意味論的に等価な課題のファミリーを生成する基盤として、1つのCTFを使用する。
これにより、基盤となるエクスプロイト戦略を固定しつつ、ソースコード変換に対するエージェントの堅牢性を制御できる。
我々は,Pythonの課題からCTFファミリーを生成する新しいツールであるEvolve-CTFを紹介した。
The Evolve-CTF to derived family from Cybench and Intercode challenges, we evaluate 13 agentic LLM configurations with tool access。
モデルが侵入的リネームやコード挿入ベースの変換に対して極めて堅牢であることは分かっていますが、より高度なツールの使用を必要とすることで、構成された変換と深い難読化がパフォーマンスに影響を与えることが分かりました。
また、明示的な推論を可能にすることは、課題家族間のソリューションの成功率にはほとんど影響しないことがわかった。
我々の研究は、将来のLCM評価のための貴重な技術とツールを提供し、この領域における現在の最先端モデルの能力を特徴付ける大規模なデータセットを提供する。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - EnIGMA: Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities [46.34031902647788]
本稿では,CTF(Capture The Flag)課題を自律的に解決するLMエージェントであるEnIGMAを紹介する。
セキュリティ脆弱性を発見して悪用するエージェントの能力を改善するために、新しいツールとインターフェースを導入します。
390 CTF課題に関する実証分析により,これらの新しいツールとインターフェースがエージェントの性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-09-24T15:06:01Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - FLAT: Few-Shot Learning via Autoencoding Transformation Regularizers [67.46036826589467]
本稿では,データ例のラベルを使わずに,変換の分布によって引き起こされる特徴表現の変化を学習することで,新たな正規化機構を提案する。
エンコードされた特徴レベルで変換強化されたバリエーションを検査することで、ベースカテゴリへのオーバーフィットのリスクを最小限に抑えることができる。
実験結果から,文学における現在の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2019-12-29T15:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。