論文の概要: Assessing and Enhancing the Robustness of LLM-based Multi-Agent Systems Through Chaos Engineering
- arxiv url: http://arxiv.org/abs/2505.03096v1
- Date: Tue, 06 May 2025 01:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.153952
- Title: Assessing and Enhancing the Robustness of LLM-based Multi-Agent Systems Through Chaos Engineering
- Title(参考訳): カオス工学によるLLMに基づくマルチエージェントシステムのロバスト性評価と向上
- Authors: Joshua Owotogbe,
- Abstract要約: 本研究では,大規模言語モデルベースマルチエージェントシステム(LLM-MAS)の実環境環境における堅牢性向上のためのカオスエンジニアリングの適用について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores the application of chaos engineering to enhance the robustness of Large Language Model-Based Multi-Agent Systems (LLM-MAS) in production-like environments under real-world conditions. LLM-MAS can potentially improve a wide range of tasks, from answering questions and generating content to automating customer support and improving decision-making processes. However, LLM-MAS in production or preproduction environments can be vulnerable to emergent errors or disruptions, such as hallucinations, agent failures, and agent communication failures. This study proposes a chaos engineering framework to proactively identify such vulnerabilities in LLM-MAS, assess and build resilience against them, and ensure reliable performance in critical applications.
- Abstract(参考訳): 本研究では,大規模言語モデルベースマルチエージェントシステム(LLM-MAS)の実環境環境における堅牢性向上のためのカオスエンジニアリングの適用について検討する。
LLM-MASは、質問への回答やコンテンツ生成、カスタマーサポートの自動化、意思決定プロセスの改善など、幅広いタスクを改善できる可能性がある。
しかし、プロダクション環境やプレプロダクション環境でのLSM-MASは、幻覚、エージェントの故障、エージェントの通信障害などの緊急エラーや破壊に対して脆弱である。
本研究では、LLM-MASの脆弱性を積極的に識別し、それらに対してレジリエンスを評価し、構築するカオスエンジニアリングフレームワークを提案する。
関連論文リスト
- SV-LLM: An Agentic Approach for SoC Security Verification using Large Language Models [8.912091484067508]
SV-LLMは,システムオンチップ(SoC)セキュリティ検証の自動化と強化を目的とした,新しいマルチエージェントアシスタントシステムである。
検証質問応答、セキュリティ資産の識別、脅威モデリング、テスト計画とプロパティ生成、脆弱性検出、シミュレーションベースのバグ検証といったタスクのための特別なエージェントを統合することで、SV-LLMはワークフローを合理化する。
このシステムは,手作業による介入を減らすこと,精度の向上,セキュリティ分析の高速化,設計サイクルの初期段階におけるリスクの積極的な識別と緩和を支援することを目的としている。
論文 参考訳(メタデータ) (2025-06-25T13:31:13Z) - Enhancing Reasoning Capabilities of Small Language Models with Blueprints and Prompt Template Search [18.317836598695706]
小型言語モデル(SLM)は、大規模言語モデル(LLM)に対する有望で効率的な代替手段を提供する。
我々のフレームワークは、SLMの感度を軽減し、変化を促すプロンプトテンプレート検索機構を統合している。
提案手法は,モデルのサイズを拡大したり,追加のトレーニングを必要とせずに,SLMの推論能力を向上させる。
論文 参考訳(メタデータ) (2025-06-10T10:30:43Z) - Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2025-06-03T10:17:19Z) - Comprehensive Vulnerability Analysis is Necessary for Trustworthy LLM-MAS [28.69485468744812]
大規模言語モデルに基づくマルチエージェントシステム (LLM-MAS) は、ハイテイクなアプリケーションにますます多くデプロイされている。
LLM-MASは、エージェント間通信、信頼関係、ツール統合を通じて、ユニークな攻撃面を導入している。
本稿では,多様な研究を統一するLSM-MASの脆弱性解析のための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-02T01:46:15Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - A Trustworthy Multi-LLM Network: Challenges,Solutions, and A Use Case [59.58213261128626]
複数の大規模言語モデル(LLM)を信頼性のあるマルチLLMネットワーク(MultiLLMN)に接続するブロックチェーン対応協調フレームワークを提案する。
このアーキテクチャは、複雑なネットワーク最適化問題に対する最も信頼性が高く高品質な応答の協調評価と選択を可能にする。
論文 参考訳(メタデータ) (2025-05-06T05:32:46Z) - LLMpatronous: Harnessing the Power of LLMs For Vulnerability Detection [0.0]
脆弱性検出のための大規模言語モデル(LLM)には、ユニークな課題がある。
脆弱性検出に機械学習モデルを使用した以前の試みは、効果がないことが証明されている。
我々は、これらの制限を緩和することに焦点を当てた、堅牢なAI駆動アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-25T15:30:40Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Solution-oriented Agent-based Models Generation with Verifier-assisted
Iterative In-context Learning [10.67134969207797]
エージェントベースのモデル(ABM)は、仮説的な解決策やポリシーの提案と検証に不可欠なパラダイムである。
大きな言語モデル(LLM)は、ドメイン間の知識とプログラミング能力をカプセル化することで、このプロセスの難しさを軽減できる可能性がある。
SAGEは、ターゲット問題に対する自動モデリングおよびソリューション生成のために設計された、汎用的なソリューション指向のABM生成フレームワークである。
論文 参考訳(メタデータ) (2024-02-04T07:59:06Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。