論文の概要: PilotBench: A Benchmark for General Aviation Agents with Safety Constraints
- arxiv url: http://arxiv.org/abs/2604.08987v1
- Date: Fri, 10 Apr 2026 05:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.706105
- Title: PilotBench: A Benchmark for General Aviation Agents with Safety Constraints
- Title(参考訳): PilotBench: 安全制約のある一般航空エージェントのベンチマーク
- Authors: Yalun Wu, Haotian Liu, Zhoujun Li, Boyang Wang,
- Abstract要約: PilotBenchは、安全クリティカルな飛行軌道と姿勢予測に基づいて、LLM(Large Language Models)を評価するベンチマークである。
708の現実世界の一般的な航空軌道から、34チャンネルのテレメトリーと9つの運用上の異なる飛行フェーズにまたがって構築されたパイロットベンチは、セマンティックな理解と物理が支配する予測の交点を体系的に調査している。
Pilot-Scoreは、60%の回帰精度と40%の命令順守と安全コンプライアンスのバランスをとる複合メトリックである。
- 参考スコア(独自算出の注目度): 39.268198343472434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) advance toward embodied AI agents operating in physical environments, a fundamental question emerges: can models trained on text corpora reliably reason about complex physics while adhering to safety constraints? We address this through PilotBench, a benchmark evaluating LLMs on safety-critical flight trajectory and attitude prediction. Built from 708 real-world general aviation trajectories spanning nine operationally distinct flight phases with synchronized 34-channel telemetry, PilotBench systematically probes the intersection of semantic understanding and physics-governed prediction through comparative analysis of LLMs and traditional forecasters. We introduce Pilot-Score, a composite metric balancing 60% regression accuracy with 40% instruction adherence and safety compliance. Comparative evaluation across 41 models uncovers a Precision-Controllability Dichotomy: traditional forecasters achieve superior MAE of 7.01 but lack semantic reasoning capabilities, while LLMs gain controllability with 86--89% instruction-following at the cost of 11--14 MAE precision. Phase-stratified analysis further exposes a Dynamic Complexity Gap-LLM performance degrades sharply in high-workload phases such as Climb and Approach, suggesting brittle implicit physics models. These empirical discoveries motivate hybrid architectures combining LLMs' symbolic reasoning with specialized forecasters' numerical precision. PilotBench provides a rigorous foundation for advancing embodied AI in safety-constrained domains.
- Abstract(参考訳): 大規模言語モデル(LLM)が物理的な環境で動作しているAIエージェントに進化するにつれて、根本的な疑問が浮かび上がってくる。
安全クリティカルな飛行軌跡と姿勢予測に基づいてLCMを評価するベンチマークであるPilotBenchを用いてこの問題に対処する。
パイロットベンチは、LLMと従来の予測器の比較分析を通じて、意味理解と物理が支配する予測の交点を体系的に調査した。
Pilot-Scoreは、60%の回帰精度と40%の命令順守と安全コンプライアンスのバランスをとる複合メトリックである。
従来の予測器は7.01の優れたMAEを達成しているが、意味論的推論能力は欠如しており、LLMは11-14MAEのコストで86-89%の命令追従で制御可能である。
位相成層解析により、Climb や Approach のような高負荷位相において、動的複雑度 Gap-LLM の性能が著しく低下し、不安定な暗黙の物理モデルが提案される。
これらの経験的発見は、LLMの記号的推論と特殊予測器の数値的精度を組み合わせたハイブリッドアーキテクチャを動機付けている。
PilotBenchは、安全制約のあるドメインにおけるエンボディドAIを前進させるための厳格な基盤を提供する。
関連論文リスト
- ATBench: A Diverse and Realistic Agent Trajectory Benchmark for Safety Evaluation and Diagnosis [96.92417622318267]
ATBenchは、エージェント安全性の構造化、多様性、現実的な評価のための軌道レベルのベンチマークである。
リスクソース、障害モード、現実世界の危害の3つの側面に沿ってエージェント的リスクを編成する。
1000個の軌道(安全503個、安全497個)があり、平均9.01ターンと3.95kトークンがあり、2,084個のツールにまたがるプールから1,954個のツールが呼び出されている。
論文 参考訳(メタデータ) (2026-04-02T13:26:20Z) - PHMForge: A Scenario-Driven Agentic Benchmark for Industrial Asset Lifecycle Maintenance [2.532228247215641]
PHMForge は Prognostics and Health Management (PHM) タスクの大規模言語モデル (LLM) エージェントを評価するために特別に設計されたベンチマークである。
当社のベンチマークでは、7つの産業資産クラス(ファンエンジン、ベアリング、電動モーター、ギアボックス、エアエンジン)にまたがる75のシナリオを5つのコアタスクカテゴリでカバーしています。
我々は,2つのMPPサーバに65の専門ツールを構築し,タスク・コメンシュレート・メトリクスを用いた実行ベースの評価器を実装した。
論文 参考訳(メタデータ) (2026-04-02T02:09:27Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Dynamic Model Selection for Trajectory Prediction via Pairwise Ranking and Meta-Features [0.0]
最近の深い軌道予測器は、高い平均精度を達成したが、複雑な長距離運転シナリオでは信頼性が保たれている。
物理インフォームドLSTM, トランスフォーマー, 微調整されたGameFormerのうち, もっとも信頼性の高い軌道予測器を適応的に選択する動的マルチエキスパートゲーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T10:01:01Z) - Improving Aviation Safety Analysis: Automated HFACS Classification Using Reinforcement Learning with Group Relative Policy Optimization [0.29494468099506904]
航空安全分析のための自動HFACS分類フレームワークを提案する。
本手法では,航空安全解析に適した多成分報酬システムを導入する。
その結果、GRPO最適化モデルは顕著な性能向上を達成した。
論文 参考訳(メタデータ) (2025-08-28T20:35:03Z) - Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour [35.19786322586909]
AXIS(Interrogative Simulation)を用いたエージェントeXplanationを提案する。
AXISはマルチエージェントポリシーのための人間中心のアクション説明を生成する。
自動運転車のAXISを10シナリオで5 LLMで評価した。
論文 参考訳(メタデータ) (2025-05-23T12:19:18Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Phase of Flight Classification in Aviation Safety using LSTM, GRU, and BiLSTM: A Case Study with ASN Dataset [0.0]
本研究の目的は,NLP技術を用いて,事故後の出来事の物語から飛行の段階を推定できるかどうかを判断することである。
各種深層学習モデルの分類性能を評価した。
論文 参考訳(メタデータ) (2025-01-14T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。