論文の概要: Specification and Evaluation of Multi-Agent LLM Systems -- Prototype and Cybersecurity Applications
- arxiv url: http://arxiv.org/abs/2506.10467v1
- Date: Thu, 12 Jun 2025 08:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.645022
- Title: Specification and Evaluation of Multi-Agent LLM Systems -- Prototype and Cybersecurity Applications
- Title(参考訳): マルチエージェントLCMシステムの仕様と評価 -プロトタイプおよびサイバーセキュリティ応用-
- Authors: Felix Härer,
- Abstract要約: 本稿では,マルチエージェントシステムによるアスペクトの特定と評価を目的とした探索的研究の結果を報告する。
システムアーキテクチャとプロトタイプは、以前の研究から拡張され、マルチエージェントシステムのための仕様が導入された。
サイバーセキュリティタスクを含むテストケースは、アーキテクチャと評価アプローチの実現可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in LLMs indicate potential for novel applications, e.g., through reasoning capabilities in the latest OpenAI and DeepSeek models. For applying these models in specific domains beyond text generation, LLM-based multi-agent approaches can be utilized that solve complex tasks by combining reasoning techniques, code generation, and software execution. Applications might utilize these capabilities and the knowledge of specialized LLM agents. However, while many evaluations are performed on LLMs, reasoning techniques, and applications individually, their joint specification and combined application is not explored well. Defined specifications for multi-agent LLM systems are required to explore their potential and their suitability for specific applications, allowing for systematic evaluations of LLMs, reasoning techniques, and related aspects. This paper reports the results of exploratory research to specify and evaluate these aspects through a multi-agent system. The system architecture and prototype are extended from previous research and a specification is introduced for multi-agent systems. Test cases involving cybersecurity tasks indicate feasibility of the architecture and evaluation approach. In particular, the results show the evaluation of question answering, server security, and network security tasks that were completed correctly by agents with LLMs from OpenAI and DeepSeek.
- Abstract(参考訳): LLMの最近の進歩は、例えば最新のOpenAIとDeepSeekモデルの推論機能を通じて、新しいアプリケーションの可能性を示している。
これらのモデルをテキスト生成以外の特定の領域に適用するために、LLMベースのマルチエージェントアプローチは、推論技術、コード生成、ソフトウェア実行を組み合わせることで複雑なタスクを解くことができる。
応用は、これらの能力と特殊なLLMエージェントの知識を利用することができる。
しかし, LLM, 推論技術, 応用を個別に評価する例は多くあるが, 共同仕様と複合アプリケーションについてはよく調べられていない。
マルチエージェントLLMシステムの仕様定義は、その可能性とその特定のアプリケーションへの適用性を探究するために必要であり、LLMの体系的評価、推論技術および関連する側面が可能である。
本稿では,これらの側面をマルチエージェントシステムを用いて特定・評価するための探索的研究結果について報告する。
システムアーキテクチャとプロトタイプは、以前の研究から拡張され、マルチエージェントシステムのための仕様が導入された。
サイバーセキュリティタスクを含むテストケースは、アーキテクチャと評価アプローチの実現可能性を示している。
特に,OpenAI および DeepSeek の LLM エージェントによる質問応答,サーバセキュリティ,ネットワークセキュリティタスクの評価を行った。
関連論文リスト
- AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Software Architecture Meets LLMs: A Systematic Literature Review [4.28281840272851]
本稿では,ソフトウェアアーキテクチャにおける大規模言語モデルの利用について,系統的な文献レビューを行う。
LLMは、様々なソフトウェアアーキテクチャタスクにますます適用されているが、アーキテクチャ設計からソースコードを生成するなど、いくつかの領域は未探索のままである。
論文 参考訳(メタデータ) (2025-05-22T14:00:29Z) - From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - LLMmap: Fingerprinting For Large Language Models [15.726286532500971]
LLMmapは、わずか8つのインタラクションで、95%以上の精度で42の異なるLLMバージョンを正確に識別することができる。
潜在的な軽減策について議論し、資源に満ちた敵に対して、効果的な対策が困難か、あるいは実現不可能であることを実証する。
論文 参考訳(メタデータ) (2024-07-22T17:59:45Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis [91.5632751731927]
ChatGPTのような大規模言語モデルは、一般的なタスクを解く際、顕著な能力を示した。
本稿では,レコメンデーションタスクにおけるLLMの活用のための汎用フレームワークを提案し,レコメンデーションタスクとしてのLLMの機能に着目した。
提案手法は,提案手法が推薦結果に与える影響を解析し,提案手法とモデルアーキテクチャ,パラメータスケール,コンテキスト長について検討する。
論文 参考訳(メタデータ) (2024-01-10T08:28:56Z) - The Tyranny of Possibilities in the Design of Task-Oriented LLM Systems:
A Scoping Survey [1.0489539392650928]
この論文は、最小限のタスク指向LLMシステムを定義し、そのようなシステムの設計空間を探求することから始まる。
結果のパターンを議論し、3つの予想に定式化する。
いずれにせよ、スコーピング調査は将来の研究の指針となる7つの予想を提示している。
論文 参考訳(メタデータ) (2023-12-29T13:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。