Fugu-MT 論文翻訳(概要): Can LLMs Hack Enterprise Networks? -- Replicated Computational Results (RCR) Report

論文の概要: Can LLMs Hack Enterprise Networks? -- Replicated Computational Results (RCR) Report

arxiv url: http://arxiv.org/abs/2603.01789v1
Date: Mon, 02 Mar 2026 12:13:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.862832
Title: Can LLMs Hack Enterprise Networks? -- Replicated Computational Results (RCR) Report
Title（参考訳）: LLMはエンタープライズネットワークをハックできるか -- 計算結果の再現(RCR)レポート
Authors: Andreas Happe, Jürgen Cito,
Abstract要約: 本論文は,エンタープライズネットワークの浸透試験における異なるLLMの有効性と有効性について実験的に検討する。このRCRレポートでは、論文で使用されているアーティファクト、評価設定の作成方法、プロトタイプで提供される分析スクリプトのハイライトについて記述する。
参考スコア（独自算出の注目度）: 1.3124479769761592
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This is the Replicated Computational Results (RCR) Report for the paper ``Can LLMs Hack Enterprise Networks?" The paper empirically investigates the efficacy and effectiveness of different LLMs for penetration-testing enterprise networks, i.e., Microsoft Active Directory Assumed-Breach Simulations. This RCR report describes the artifacts used in the paper, how to create an evaluation setup, and highlights the analysis scripts provided within our prototype.
Abstract（参考訳）: This is the Replicated Computational Results (RCR) Report for the paper `Can LLMs Hack Enterprise Networks? 本論文は,Microsoft Active Directory Assumed-Breach Simulations と呼ばれる,エンタープライズネットワークの浸透試験における異なるLLMの有効性と有効性について実験的に検討する。このRCRレポートでは、論文で使用されているアーティファクト、評価設定の作成方法、プロトタイプで提供される分析スクリプトのハイライトについて記述する。

関連論文リスト

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets [2.781313927438882]
本稿では,ビジネス文書情報抽出における各種MLLMの評価を行う。画像のみの入力はOCR強化アプローチに匹敵する性能が得られるため,強力なMLLMにはOCRは必要ない可能性が示唆された。
論文参考訳（メタデータ） (2026-03-03T09:26:40Z)
RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。 C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。 SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文参考訳（メタデータ） (2026-02-28T14:47:34Z)
Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-08-19T21:11:11Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
TracLLM: A Generic Framework for Attributing Long Context LLMs [34.802736332993994]
我々は,長期LLMに適した最初の汎用コンテキストトレースバックフレームワークであるTracLLMを開発した。我々のフレームワークは、既存の特徴属性手法の有効性と効率を向上させることができる。評価の結果,TracLLMはLLMの出力に繋がる長い文脈でテキストを効果的に識別できることがわかった。
論文参考訳（メタデータ） (2025-06-04T17:48:16Z)
Can LLMs Hack Enterprise Networks? Autonomous Assumed Breach Penetration-Testing Active Directory Networks [1.3124479769761592]
本稿では,Large Language Model (LLM) 駆動自律システムを用いた新しいプロトタイプを提案する。我々のシステムは、完全に自律的でLLM駆動のフレームワークがアカウントを妥協できる最初の実演である。関連するコストは、プロフェッショナルな人間のペンテスト担当者によって引き起こされるコストと競合し、しばしばかなり低いことが分かりました。
論文参考訳（メタデータ） (2025-02-06T17:12:43Z)
Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Recall, Retrieve and Reason: Towards Better In-Context Relation Extraction [11.535892987373947]
関係抽出(RE)は、テキストで言及されたエンティティ間の関係を特定することを目的としている。大規模言語モデル(LLM)は、様々なタスクにおいて、コンテキスト内学習能力を印象的に示している。 LLMは、ほとんどの教師付き細調整RE法と比較して性能が劣る。
論文参考訳（メタデータ） (2024-04-27T07:12:52Z)
Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond [24.151927600694066]
コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
論文参考訳（メタデータ） (2024-04-23T08:24:43Z)
Benchmarking LLMs on the Semantic Overlap Summarization Task [7.944123371140184]
本稿では,セマンティック・オーバーラップ・サマライゼーション(SOS)タスクのみを対象に,人気のあるLarge Language Models (LLM) のベンチマーク研究を行う。このデータセットは、プライバシポリシのドキュメントから得られた135の高品質なSOSデータサンプルを提供する。次に、TELeRと呼ばれる標準の分類法を用いて、2つのSOSデータセット上で905,216個のLCM生成サマリーを作成し、評価する。
論文参考訳（メタデータ） (2024-02-26T20:33:50Z)
Breaking the Silence: the Threats of Using LLMs in Software Engineering [12.368546216271382]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。本稿では,LSMに基づく研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。
論文参考訳（メタデータ） (2023-12-13T11:02:19Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
CREPO: An Open Repository to Benchmark Credal Network Algorithms [78.79752265884109]
クレダルネットワークは、確率質量関数の集合であるクレダルに基づく不正確な確率的グラフィカルモデルである。 CREMAと呼ばれるJavaライブラリが最近リリースされ、クレダルネットワークをモデル化し、処理し、クエリする。我々は,これらのモデル上での推論タスクの正確な結果とともに,合成クレダルネットワークのオープンリポジトリであるcrrepoを提案する。
論文参考訳（メタデータ） (2021-05-10T07:31:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。