論文の概要: $α^3$-Bench: A Unified Benchmark of Safety, Robustness, and Efficiency for LLM-Based UAV Agents over 6G Networks
- arxiv url: http://arxiv.org/abs/2601.03281v1
- Date: Thu, 01 Jan 2026 12:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:22.963054
- Title: $α^3$-Bench: A Unified Benchmark of Safety, Robustness, and Efficiency for LLM-Based UAV Agents over 6G Networks
- Title(参考訳): 6Gネットワーク上でのLDMベースのUAVエージェントの安全性、ロバスト性、効率の統一ベンチマーク
- Authors: Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah,
- Abstract要約: 3ドルベンチは無人航空機の自律性を評価するためのベンチマークである。
各ミッションは、LLMベースのUAVエージェントと人間のオペレータ間の言語経由の制御ループとして定式化される。
UAVBenchシナリオに基づく113kの会話型UAVエピソードの大規模コーパスを構築した。
本稿では,タスクアウトカム,安全ポリシ,ツール一貫性,インタラクション品質,ネットワークロバストネス,通信コストの6つの柱を統合した3ドルの複合指標を提案する。
- 参考スコア(独自算出の注目度): 3.099103925863002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used as high level controllers for autonomous Unmanned Aerial Vehicle (UAV) missions. However, existing evaluations rarely assess whether such agents remain safe, protocol compliant, and effective under realistic next generation networking constraints. This paper introduces $α^3$-Bench, a benchmark for evaluating LLM driven UAV autonomy as a multi turn conversational reasoning and control problem operating under dynamic 6G conditions. Each mission is formulated as a language mediated control loop between an LLM based UAV agent and a human operator, where decisions must satisfy strict schema validity, mission policies, speaker alternation, and safety constraints while adapting to fluctuating network slices, latency, jitter, packet loss, throughput, and edge load variations. To reflect modern agentic workflows, $α^3$-Bench integrates a dual action layer supporting both tool calls and agent to agent coordination, enabling evaluation of tool use consistency and multi agent interactions. We construct a large scale corpus of 113k conversational UAV episodes grounded in UAVBench scenarios and evaluate 17 state of the art LLMs using a fixed subset of 50 episodes per scenario under deterministic decoding. We propose a composite $α^3$ metric that unifies six pillars: Task Outcome, Safety Policy, Tool Consistency, Interaction Quality, Network Robustness, and Communication Cost, with efficiency normalized scores per second and per thousand tokens. Results show that while several models achieve high mission success and safety compliance, robustness and efficiency vary significantly under degraded 6G conditions, highlighting the need for network aware and resource efficient LLM based UAV agents. The dataset is publicly available on GitHub : https://github.com/maferrag/AlphaBench
- Abstract(参考訳): 大型言語モデル (LLMs) は無人無人航空機 (UAV) ミッションの高レベル制御器としてますます使われている。
しかし、既存の評価では、そのようなエージェントが安全であり、プロトコルに準拠し、現実的な次世代ネットワーク制約下で有効かどうかを評価することは滅多にない。
本稿では,LLM駆動型無人航空機の自律性を評価するためのベンチマークであるα^3$-Benchについて,動的6G条件下での多ターン対話推論と制御問題として紹介する。
それぞれのミッションは、LLMベースのUAVエージェントと人間のオペレータ間の言語経由の制御ループとして定式化され、決定は厳密なスキーマの妥当性、ミッションポリシー、話者変更、安全性の制約を満たすとともに、変動するネットワークスライス、レイテンシ、ジッタ、パケット損失、スループット、エッジ負荷の変動に適応する必要がある。
現代のエージェントワークフローを反映するために、$α^3$-Benchはツール呼び出しとエージェントの協調をサポートするデュアルアクション層を統合し、ツール使用の一貫性とマルチエージェントインタラクションの評価を可能にする。
我々は,UAVBenchシナリオをベースとした1,3kの会話型UAVエピソードの大規模コーパスを構築し,決定論的復号化の下で1シナリオあたり50エピソードの固定サブセットを用いて17の最先端LCMを評価した。
本稿では, タスクアウトカム, 安全ポリシ, ツール一貫性, インタラクション品質, ネットワークロバスト性, 通信コストの6つの柱を統一した複合的な$α^3$メトリックを提案する。
その結果、いくつかのモデルが高いミッション成功と安全コンプライアンスを達成する一方で、劣化した6G条件下ではロバスト性と効率が著しく変化し、ネットワーク認識と資源効率の高いLLMベースUAVエージェントの必要性が浮き彫りになった。
データセットはGitHubで公開されている。 https://github.com/maferrag/AlphaBench
関連論文リスト
- TAMAS: Benchmarking Adversarial Risks in Multi-Agent LLM Systems [11.885326879716738]
大規模言語モデル(LLM)は、ツールの使用、計画、意思決定能力を通じて、自律的なエージェントとして強力な能力を示している。
タスクの複雑さが増大するにつれて、複数エージェントのLLMシステムが協調的に問題解決に利用されている。
既存のベンチマークでは、主にシングルエージェント設定に重点を置いており、マルチエージェントのダイナミックスとコーディネーションのユニークな脆弱性を捉えていない。
我々は$textbfT$hreatsと$textbfA$ttacks in $textbfM$ulti-$textbfA$gent $textを導入する。
論文 参考訳(メタデータ) (2025-11-07T14:30:26Z) - AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI [5.165179548592513]
AgentChangeBenchは、ツール拡張言語モデルエージェントがミッドダイアログのゴールシフトにどのように適応するかを測定するために設計されたベンチマークである。
本フレームワークは,タスク成功率(TSR),信頼性のためのツール利用効率(TUE),無駄な作業のためのツールコール冗長率(TCRR),適応のためのゴールシフト回復時間(GSRT)の4つの相補的指標を用いて評価を定式化する。
論文 参考訳(メタデータ) (2025-10-20T23:48:07Z) - Agentic UAVs: LLM-Driven Autonomy with Integrated Tool-Calling and Cognitive Reasoning [3.4643961367503575]
既存のUAVフレームワークには、コンテキスト対応の推論、自律的な意思決定、エコシステムレベルの統合が欠けている。
本稿では,5層アーキテクチャであるエージェントUAVフレームワークを紹介する(知覚,推論,アクション,統合,学習)。
ROS2 と Gazebo ベースのプロトタイプは YOLOv11 オブジェクト検出と GPT-4 推論とローカル Gemma-3 デプロイメントを統合している。
論文 参考訳(メタデータ) (2025-09-14T08:46:40Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。
その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3~36ポイントの絶対的な向上が見られた。
論文 参考訳(メタデータ) (2025-07-04T02:20:19Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。