論文の概要: Human-in-the-Loop Testing of AI Agents for Air Traffic Control with a Regulated Assessment Framework
- arxiv url: http://arxiv.org/abs/2601.04288v1
- Date: Wed, 07 Jan 2026 14:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.866082
- Title: Human-in-the-Loop Testing of AI Agents for Air Traffic Control with a Regulated Assessment Framework
- Title(参考訳): 規制評価フレームワークを用いた航空交通制御のためのAIエージェントの対人テスト
- Authors: Ben Carvell, Marc Thomas, Andrew Pace, Christopher Dorney, George De Ath, Richard Everson, Nick Pepper, Adam Keane, Samuel Tomlinson, Richard Cannon,
- Abstract要約: 本稿では,エアトラヒック制御におけるAIエージェントの性能評価を行うための,厳密なループ内評価フレームワークを提案する。
法的に規制された評価を活用し、評価プロセスに熟練した人間インストラクターを巻き込むことで、我々のフレームワークはAIのパフォーマンスをより正確かつ正確に測定することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a rigorous, human-in-the-loop evaluation framework for assessing the performance of AI agents on the task of Air Traffic Control, grounded in a regulator-certified simulator-based curriculum used for training and testing real-world trainee controllers. By leveraging legally regulated assessments and involving expert human instructors in the evaluation process, our framework enables a more authentic and domain-accurate measurement of AI performance. This work addresses a critical gap in the existing literature: the frequent misalignment between academic representations of Air Traffic Control and the complexities of the actual operational environment. It also lays the foundations for effective future human-machine teaming paradigms by aligning machine performance with human assessment targets.
- Abstract(参考訳): そこで本研究では,実世界のトレーナーの訓練・テストに使用されるシミュレーターベースのカリキュラムに基づいて,航空交通制御のタスクにおいて,AIエージェントの性能を評価するための厳密で人為的な評価フレームワークを提案する。
法的に規制された評価を活用し、評価プロセスに熟練した人間インストラクターを巻き込むことで、我々のフレームワークはAIのパフォーマンスをより正確かつ正確に測定することができる。
エアトラヒックコントロールの学術的表現と実際の運用環境の複雑さの相違が頻繁である。
また、マシン性能と人間の評価目標を整合させることにより、人間と機械の効果的なコラボレーションパラダイムの基礎を築き上げている。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - A Hierarchical Agentic Framework for Autonomous Drone-Based Visual Inspection [1.7165503847488661]
本稿では,自律型ドローン制御のための階層型エージェントフレームワークと,個別機能実行のための推論手法を提案する。
本フレームワークは,産業用リードアウトの解釈や検査機器の検査など,屋内産業環境での視覚的検査作業に重点を置いている。
自然言語処理をエージェント通信に活用することにより、従来のドローンベースのソリューションに代わる、斬新で柔軟な、ユーザアクセス可能な代替手段を提供する。
論文 参考訳(メタデータ) (2025-09-30T20:31:30Z) - Trainee Action Recognition through Interaction Analysis in CCATT Mixed-Reality Training [1.5641818606249476]
重要なケア航空輸送チームのメンバーは、飛行中に人工呼吸器、IVポンプ、吸引装置を管理することで重傷を負った兵士を安定させなければならない。
シミュレーションとマルチモーダルデータ分析の最近の進歩は、より客観的で包括的なパフォーマンス評価を可能にする。
本研究では, CCATT のメンバーが, エアロメディカル避難の高圧条件を再現する混合現実感シミュレーションを用いて, どのように訓練されているかを検討する。
論文 参考訳(メタデータ) (2025-09-22T15:19:45Z) - Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism [48.41735416075536]
インタラクティブ・イミテーション・ラーニング (Interactive Imitation Learning, IIL) は、エージェントが人間の介入を通じて望ましい行動を取得することを可能にする。
本稿では,人間の実演を依頼する適応的基準を学習するロボットゲート型IILアルゴリズムであるAdaptive Intervention Mechanism (AIM)を提案する。
論文 参考訳(メタデータ) (2025-06-10T18:43:26Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving [16.379623042562415]
本研究では、強化学習(RL)を強化するHuman-in-the-Loop(HITL)アプローチであるInteractive Double Deep Q-network(iDDQN)を導入する。
提案したiDDQN法は,Q値更新方程式を修正して,人間とエージェントのアクションを統合することで,政策開発のための協調的アプローチを確立する。
シミュレーションされた自律走行シナリオにおける実証的な結果は、iDDQNが確立されたアプローチより優れていることを示している。
論文 参考訳(メタデータ) (2025-04-28T05:25:18Z) - VeriLA: A Human-Centered Evaluation Framework for Interpretable Verification of LLM Agent Failures [3.075266204492352]
複合AIシステムにおける大規模言語モデル(LLM)エージェントは、しばしば人間の基準を満たさないため、システム全体のパフォーマンスを損なうエラーにつながる。
本稿では LLM Agent failures (VeriLA) を検証するための人間中心評価フレームワークを提案する。
VeriLAは、人的労力を減らすためにエージェント障害を体系的に評価し、これらのエージェント障害を人間に解釈できるようにする。
論文 参考訳(メタデータ) (2025-03-16T21:11:18Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Modelling, Positioning, and Deep Reinforcement Learning Path Tracking
Control of Scaled Robotic Vehicles: Design and Experimental Validation [3.807917169053206]
スケールされたロボットカーは通常、車両の状態の推定と制御に特化したタスクを含む階層的な制御機構を備えている。
本稿では, (i) フェデレートされた拡張カルマンフィルタ (FEKF) と (ii) エキスパートデモレータを用いて訓練された新しい深部強化学習 (DRL) パストラッキングコントローラを提案する。
実験により検証されたモデルは、(i)FEKFの設計を支援するために使用され、(ii)DRLに基づく経路追跡アルゴリズムをトレーニングするためのデジタルツインとして機能する。
論文 参考訳(メタデータ) (2024-01-10T14:40:53Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。