論文の概要: Improving Aviation Safety Analysis: Automated HFACS Classification Using Reinforcement Learning with Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2508.21201v1
- Date: Thu, 28 Aug 2025 20:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.870002
- Title: Improving Aviation Safety Analysis: Automated HFACS Classification Using Reinforcement Learning with Group Relative Policy Optimization
- Title(参考訳): 航空安全分析の改善:グループ相対的政策最適化を用いた強化学習を用いたHFACSの自動分類
- Authors: Arash Ahmadi, Sarah Sharif, Yaser Banad,
- Abstract要約: 航空安全分析のための自動HFACS分類フレームワークを提案する。
本手法では,航空安全解析に適した多成分報酬システムを導入する。
その結果、GRPO最適化モデルは顕著な性能向上を達成した。
- 参考スコア(独自算出の注目度): 0.29494468099506904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing the human factors behind aviation accidents is crucial for preventing future incidents, yet traditional methods using the Human Factors Analysis and Classification System (HFACS) are limited by scalability and consistency. To address this, we introduce an automated HFACS classification framework for aviation safety analysis that utilizes Reinforcement Learning with Group Relative Policy Optimization (GRPO) to fine-tune a Llama-3.1 8B language model. Our approach incorporates a multi-component reward system tailored for aviation safety analysis and integrates synthetic data generation to overcome class imbalance in accident datasets. The resulting GRPO-optimized model achieved noticeable performance gains, including a 350% increase in exact match accuracy (from 0.0400 to 0.1800) and an improved partial match accuracy of 0.8800. Significantly, our specialized model outperforms state-of-the-art LLMs (Large Language Models), including GPT-5-mini and Gemini-2.5-fiash, on key metrics. This research also proposes exact match accuracy in multi-label HFACS classification problem as a new benchmarking methodology to evaluate the advanced reasoning capabilities of language models. Ultimately, our work validates that smaller, domain-optimized models can provide a computationally efficient and better solution for critical safety analysis. This approach makes powerful, low-latency deployment on resource-constrained edge devices feasible.
- Abstract(参考訳): 航空事故の背景にある人的要因を解析することは今後の事故の防止に不可欠であるが、HFACS(Human Factors Analysis and Classification System)を用いた従来の手法はスケーラビリティと整合性によって制限されている。
そこで本稿では,Llama-3.1 8B言語モデルの微調整にGRPO(Reinforcement Learning with Group Relative Policy Optimization)を用いた航空安全分析のための自動HFACS分類フレームワークを提案する。
本手法では,航空安全解析に適した多成分報酬システムを導入し,事故データセットのクラス不均衡を克服するために合成データ生成を統合する。
その結果、GRPO最適化モデルは、正確なマッチング精度(0.0400から0.1800まで)が350%向上し、部分マッチング精度が0.8800まで改善したなど、顕著な性能向上を達成した。
GPT-5-miniやGemini-2.5-fiashなど,最先端のLLM(Large Language Models)よりも優れたパフォーマンスを実現しています。
本研究は,言語モデルの高度な推論能力を評価するための新しいベンチマーク手法として,多ラベルHFACS分類問題における正確なマッチング精度を提案する。
最終的に、我々の研究は、より小さく、ドメイン最適化されたモデルが、クリティカルセーフティ分析のための計算効率が良く、より良いソリューションを提供できることを検証します。
このアプローチにより、リソース制約のあるエッジデバイス上で、強力で低レイテンシなデプロイメントが可能になる。
関連論文リスト
- AI Agentic Vulnerability Injection And Transformation with Optimized Reasoning [2.918225266151982]
本稿では,データセットを生成するためのセキュアなC/C++に,現実的なカテゴリ固有の脆弱性を自動的に導入する新しいフレームワークを提案する。
提案したアプローチは、専門家の推論をシミュレートする複数のAIエージェントと、関数エージェントと従来のコード解析ツールをコーディネートする。
3つの異なるベンチマークから得られた116のコードサンプルに関する実験的研究は、我々のアプローチがデータセットの精度に関して他の手法よりも優れていることを示唆している。
論文 参考訳(メタデータ) (2025-08-28T14:59:39Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [78.18946529195254]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Byzantine-Resilient Over-the-Air Federated Learning under Zero-Trust Architecture [68.83934802584899]
我々は,セキュアな適応クラスタリング(FedSAC)を用いたフェデレーション学習(Federated Learning)と呼ばれる,無線通信のための新しいビザンチン・ロバストFLパラダイムを提案する。
FedSACは、デバイスの一部をゼロ信頼アーキテクチャ(ZTA)ベースのビザンティン識別と適応デバイスクラスタリングによる攻撃から保護することを目的としている。
実験精度と収束率の両面から,提案手法よりもFedSACの方が優れていることを示す。
論文 参考訳(メタデータ) (2025-03-24T01:56:30Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Adaptive Reliability Analysis for Multi-fidelity Models using a
Collective Learning Strategy [6.368679897630892]
本研究は,信頼性解析のための適応多忠実ガウス法(adaptive multi-fidelity Gaussian process for reliability analysis,AMGPRA)という新しい手法を提案する。
提案手法は,最先端の単相・多相の手法と比較して計算コストを削減し,類似あるいは高い精度を実現する。
AMGPRAのキーとなる応用は、複雑で高価な物理ベースの計算モデルを用いた高忠実度不安定性モデリングである。
論文 参考訳(メタデータ) (2021-09-21T14:42:58Z) - Neural Network Repair with Reachability Analysis [10.384532888747993]
安全は次世代の自律性にとって重要な問題であり、知覚と制御のためにディープニューラルネットワークに大きく依存する可能性が高い。
本研究は,安全クリティカルシステムにおける安全でないDNNを到達可能性解析で修復する枠組みを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。