論文の概要: Specification and Evaluation of Multi-Agent LLM Systems -- Prototype and Cybersecurity Applications
- arxiv url: http://arxiv.org/abs/2506.10467v2
- Date: Fri, 13 Jun 2025 17:32:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:02.029383
- Title: Specification and Evaluation of Multi-Agent LLM Systems -- Prototype and Cybersecurity Applications
- Title(参考訳): マルチエージェントLCMシステムの仕様と評価 -プロトタイプおよびサイバーセキュリティ応用-
- Authors: Felix Härer,
- Abstract要約: 本稿では,マルチエージェントシステムによるアスペクトの特定と評価を目的とした探索的研究の結果を報告する。
システムアーキテクチャとプロトタイプは、以前の研究から拡張され、マルチエージェントシステムのための仕様が導入された。
サイバーセキュリティタスクを含むテストケースは、アーキテクチャと評価アプローチの実現可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in LLMs indicate potential for novel applications, e.g., through reasoning capabilities in the latest OpenAI and DeepSeek models. For applying these models in specific domains beyond text generation, LLM-based multi-agent approaches can be utilized that solve complex tasks by combining reasoning techniques, code generation, and software execution. Applications might utilize these capabilities and the knowledge of specialized LLM agents. However, while many evaluations are performed on LLMs, reasoning techniques, and applications individually, their joint specification and combined application is not explored well. Defined specifications for multi-agent LLM systems are required to explore their potential and their suitability for specific applications, allowing for systematic evaluations of LLMs, reasoning techniques, and related aspects. This paper reports the results of exploratory research to specify and evaluate these aspects through a multi-agent system. The system architecture and prototype are extended from previous research and a specification is introduced for multi-agent systems. Test cases involving cybersecurity tasks indicate feasibility of the architecture and evaluation approach. In particular, the results show the evaluation of question answering, server security, and network security tasks that were completed correctly by agents with LLMs from OpenAI and DeepSeek.
- Abstract(参考訳): LLMの最近の進歩は、例えば最新のOpenAIとDeepSeekモデルの推論機能を通じて、新しいアプリケーションの可能性を示している。
これらのモデルをテキスト生成以外の特定の領域に適用するために、LLMベースのマルチエージェントアプローチは、推論技術、コード生成、ソフトウェア実行を組み合わせることで複雑なタスクを解くことができる。
応用は、これらの能力と特殊なLLMエージェントの知識を利用することができる。
しかし, LLM, 推論技術, 応用を個別に評価する例は多くあるが, 共同仕様と複合アプリケーションについてはよく調べられていない。
マルチエージェントLLMシステムの仕様定義は、その可能性とその特定のアプリケーションへの適用性を探究するために必要であり、LLMの体系的評価、推論技術および関連する側面が可能である。
本稿では,これらの側面をマルチエージェントシステムを用いて特定・評価するための探索的研究結果について報告する。
システムアーキテクチャとプロトタイプは、以前の研究から拡張され、マルチエージェントシステムのための仕様が導入された。
サイバーセキュリティタスクを含むテストケースは、アーキテクチャと評価アプローチの実現可能性を示している。
特に,OpenAI および DeepSeek の LLM エージェントによる質問応答,サーバセキュリティ,ネットワークセキュリティタスクの評価を行った。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - Software Architecture Meets LLMs: A Systematic Literature Review [4.28281840272851]
本稿では,ソフトウェアアーキテクチャにおける大規模言語モデルの利用について,系統的な文献レビューを行う。
LLMは、様々なソフトウェアアーキテクチャタスクにますます適用されているが、アーキテクチャ設計からソースコードを生成するなど、いくつかの領域は未探索のままである。
論文 参考訳(メタデータ) (2025-05-22T14:00:29Z) - JARVIS: A Multi-Agent Code Assistant for High-Quality EDA Script Generation [3.6946337486060776]
JARVISは、LLM(Large Language Models)とドメインの専門知識を活用して、EDAタスクのための高品質なスクリプトを生成する、新しいマルチエージェントフレームワークである。
合成データを用いて訓練されたドメイン固有LLM, 構造検証, ルール強制, コード修正機能, 高度な検索機構のカスタムコンパイラを組み合わせることにより, 本手法は最先端のドメイン固有モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-20T23:40:57Z) - Exploring LLMs for Verifying Technical System Specifications Against Requirements [41.19948826527649]
知識に基づく要求工学(KBRE)の分野は、システム要件の活用、検証、管理を支援する知識を提供することによって、技術者を支援することを目的としている。
大規模言語モデル(LLM)の出現はKBREの分野で新たな機会を開く。
本研究は, LLMの要件検証における可能性について実験的に検討する。
論文 参考訳(メタデータ) (2024-11-18T13:59:29Z) - From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - LLMmap: Fingerprinting For Large Language Models [15.726286532500971]
LLMmapは、わずか8つのインタラクションで、95%以上の精度で42の異なるLLMバージョンを正確に識別することができる。
潜在的な軽減策について議論し、資源に満ちた敵に対して、効果的な対策が困難か、あるいは実現不可能であることを実証する。
論文 参考訳(メタデータ) (2024-07-22T17:59:45Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis [91.5632751731927]
ChatGPTのような大規模言語モデルは、一般的なタスクを解く際、顕著な能力を示した。
本稿では,レコメンデーションタスクにおけるLLMの活用のための汎用フレームワークを提案し,レコメンデーションタスクとしてのLLMの機能に着目した。
提案手法は,提案手法が推薦結果に与える影響を解析し,提案手法とモデルアーキテクチャ,パラメータスケール,コンテキスト長について検討する。
論文 参考訳(メタデータ) (2024-01-10T08:28:56Z) - The Tyranny of Possibilities in the Design of Task-Oriented LLM Systems:
A Scoping Survey [1.0489539392650928]
この論文は、最小限のタスク指向LLMシステムを定義し、そのようなシステムの設計空間を探求することから始まる。
結果のパターンを議論し、3つの予想に定式化する。
いずれにせよ、スコーピング調査は将来の研究の指針となる7つの予想を提示している。
論文 参考訳(メタデータ) (2023-12-29T13:35:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。