論文の概要: Specification and Evaluation of Multi-Agent LLM Systems -- Prototype and Cybersecurity Applications
- arxiv url: http://arxiv.org/abs/2506.10467v4
- Date: Sat, 19 Jul 2025 20:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:32.103876
- Title: Specification and Evaluation of Multi-Agent LLM Systems -- Prototype and Cybersecurity Applications
- Title(参考訳): マルチエージェントLCMシステムの仕様と評価 -プロトタイプおよびサイバーセキュリティ応用-
- Authors: Felix Härer,
- Abstract要約: LLMは、推論技術、コード生成、ソフトウェア実行を複数の潜在的に特殊なLLMで組み合わせることで、複雑なタスクを解決するのに使うことができる。
本稿では,マルチエージェントシステムアーキテクチャとプロトタイプを用いて,エージェントスキーマ言語と仕様の実行と評価を紹介する。
サイバーセキュリティタスクを含むテストケースは、アーキテクチャと評価アプローチの可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in LLMs indicate potential for novel applications, as evidenced by the reasoning capabilities in the latest OpenAI and DeepSeek models. To apply these models to domain-specific applications beyond text generation, LLM-based multi-agent systems can be utilized to solve complex tasks, particularly by combining reasoning techniques, code generation, and software execution across multiple, potentially specialized LLMs. However, while many evaluations are performed on LLMs, reasoning techniques, and applications individually, their joint specification and combined application are not well understood. Defined specifications for multi-agent LLM systems are required to explore their potential and suitability for specific applications, allowing for systematic evaluations of LLMs, reasoning techniques, and related aspects. This paper reports the results of exploratory research on (1.) multi-agent specification by introducing an agent schema language and (2.) the execution and evaluation of the specifications through a multi-agent system architecture and prototype. The specification language, system architecture, and prototype are first presented in this work, building on an LLM system from prior research. Test cases involving cybersecurity tasks indicate the feasibility of the architecture and evaluation approach. As a result, evaluations could be demonstrated for question answering, server security, and network security tasks completed correctly by agents with LLMs from OpenAI and DeepSeek.
- Abstract(参考訳): LLMの最近の進歩は、最新のOpenAIとDeepSeekモデルの推論能力によって証明されているように、新しい応用の可能性を示している。
これらのモデルをテキスト生成以外のドメイン固有のアプリケーションに適用するために、LLMベースのマルチエージェントシステムは複雑なタスク、特に推論技術、コード生成、ソフトウェア実行を複数の特殊なLLMで組み合わせることで、複雑なタスクを解くことができる。
しかし, LLM, 推論技術, 応用を個別に評価することは多くあるが, 共同仕様と複合アプリケーションについてはよく理解されていない。
マルチエージェントLLMシステムの仕様定義は、その可能性と特定のアプリケーションに適合する可能性を探るために必要であり、LLMの体系的評価、推論技術および関連する側面が可能である。
本稿では,エージェントスキーマ言語の導入による(1.)マルチエージェント仕様の探索的研究と,(2.)マルチエージェントシステムアーキテクチャとプロトタイプによる仕様の実行と評価について報告する。
仕様言語、システムアーキテクチャ、プロトタイプは、この研究で最初に紹介され、以前の研究からLLMシステムを構築した。
サイバーセキュリティタスクを含むテストケースは、アーキテクチャと評価アプローチの可能性を示している。
その結果、OpenAIとDeepSeekのLLMでエージェントが正しく完了した質問応答、サーバセキュリティ、ネットワークセキュリティタスクの評価が実証された。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Software Architecture Meets LLMs: A Systematic Literature Review [4.28281840272851]
本稿では,ソフトウェアアーキテクチャにおける大規模言語モデルの利用について,系統的な文献レビューを行う。
LLMは、様々なソフトウェアアーキテクチャタスクにますます適用されているが、アーキテクチャ設計からソースコードを生成するなど、いくつかの領域は未探索のままである。
論文 参考訳(メタデータ) (2025-05-22T14:00:29Z) - JARVIS: A Multi-Agent Code Assistant for High-Quality EDA Script Generation [3.6946337486060776]
JARVISは、LLM(Large Language Models)とドメインの専門知識を活用して、EDAタスクのための高品質なスクリプトを生成する、新しいマルチエージェントフレームワークである。
合成データを用いて訓練されたドメイン固有LLM, 構造検証, ルール強制, コード修正機能, 高度な検索機構のカスタムコンパイラを組み合わせることにより, 本手法は最先端のドメイン固有モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-20T23:40:57Z) - Exploring LLMs for Verifying Technical System Specifications Against Requirements [41.19948826527649]
知識に基づく要求工学(KBRE)の分野は、システム要件の活用、検証、管理を支援する知識を提供することによって、技術者を支援することを目的としている。
大規模言語モデル(LLM)の出現はKBREの分野で新たな機会を開く。
本研究は, LLMの要件検証における可能性について実験的に検討する。
論文 参考訳(メタデータ) (2024-11-18T13:59:29Z) - From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - LLMmap: Fingerprinting For Large Language Models [15.726286532500971]
LLMmapは、わずか8つのインタラクションで、95%以上の精度で42の異なるLLMバージョンを正確に識別することができる。
潜在的な軽減策について議論し、資源に満ちた敵に対して、効果的な対策が困難か、あるいは実現不可能であることを実証する。
論文 参考訳(メタデータ) (2024-07-22T17:59:45Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis [91.5632751731927]
ChatGPTのような大規模言語モデルは、一般的なタスクを解く際、顕著な能力を示した。
本稿では,レコメンデーションタスクにおけるLLMの活用のための汎用フレームワークを提案し,レコメンデーションタスクとしてのLLMの機能に着目した。
提案手法は,提案手法が推薦結果に与える影響を解析し,提案手法とモデルアーキテクチャ,パラメータスケール,コンテキスト長について検討する。
論文 参考訳(メタデータ) (2024-01-10T08:28:56Z) - The Tyranny of Possibilities in the Design of Task-Oriented LLM Systems:
A Scoping Survey [1.0489539392650928]
この論文は、最小限のタスク指向LLMシステムを定義し、そのようなシステムの設計空間を探求することから始まる。
結果のパターンを議論し、3つの予想に定式化する。
いずれにせよ、スコーピング調査は将来の研究の指針となる7つの予想を提示している。
論文 参考訳(メタデータ) (2023-12-29T13:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。