論文の概要: Is BERTopic Better than PLSA for Extracting Key Topics in Aviation Safety Reports?
- arxiv url: http://arxiv.org/abs/2506.06328v1
- Date: Fri, 30 May 2025 19:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.066094
- Title: Is BERTopic Better than PLSA for Extracting Key Topics in Aviation Safety Reports?
- Title(参考訳): 航空安全レポートの重要トピック抽出におけるBERTopicはPLSAより優れているか?
- Authors: Aziida Nanyonga, Joiner Keith, Turhan Ugur, Wild Graham,
- Abstract要約: 本研究は,航空安全レポートから有意義なトピックを抽出する上で,BERTopic と Probabilistic Latent Semantic Analysis (PLSA) の有効性を比較した。
2000年から2020年にかけてのNTSB(National Transportation Safety Board)のデータセットを使用して、BERTopicはトランスフォーマーベースの埋め込みと階層的なクラスタリングを採用した。
その結果, BERTopicはPLSAのトピックコヒーレンスに優れ, PLSA 0.37に比べてCvスコア0.41の成績を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study compares the effectiveness of BERTopic and Probabilistic Latent Semantic Analysis (PLSA) in extracting meaningful topics from aviation safety reports aiming to enhance the understanding of patterns in aviation incident data. Using a dataset of over 36,000 National Transportation Safety Board (NTSB) reports from 2000 to 2020, BERTopic employed transformer based embeddings and hierarchical clustering, while PLSA utilized probabilistic modelling through the Expectation-Maximization (EM) algorithm. Results showed that BERTopic outperformed PLSA in topic coherence, achieving a Cv score of 0.41 compared to PLSA 0.37, while also demonstrating superior interpretability as validated by aviation safety experts. These findings underscore the advantages of modern transformer based approaches in analyzing complex aviation datasets, paving the way for enhanced insights and informed decision-making in aviation safety. Future work will explore hybrid models, multilingual datasets, and advanced clustering techniques to further improve topic modelling in this domain.
- Abstract(参考訳): 本研究は,航空事故データにおけるパターンの理解を高めることを目的とした航空安全報告から有意義なトピックを抽出する上で,BERTopic と Probabilistic Latent Semantic Analysis (PLSA) の有効性を比較した。
2000年から2020年にかけてのNTSB(National Transportation Safety Board)のデータセットを用いて、BERTopicはトランスフォーマーベースの埋め込みと階層的クラスタリングを採用し、PLSAは予測最大化(EM)アルゴリズムによる確率的モデリングを利用した。
その結果, BERTopicはPLSAのトピックコヒーレンスに優れ, PLSA 0.37に比べてCvスコア0.41の成績を示した。
これらの知見は、複雑な航空データセットを分析し、航空安全における洞察と情報決定のための道を開いた、現代のトランスフォーマーベースのアプローチの利点を浮き彫りにした。
今後、この領域におけるトピックモデリングをさらに改善するために、ハイブリッドモデル、多言語データセット、高度なクラスタリング技術について検討する予定である。
関連論文リスト
- Utilizing AI for Aviation Post-Accident Analysis Classification [0.0]
航空安全報告で利用可能なテキストデータの量は、タイムリーかつ正確な分析の課題を示している。
本稿では、人工知能(AI)、具体的には自然言語処理(NLP)が、このデータから貴重な洞察を抽出するプロセスを自動化する方法について検討する。
この結果から,NLPと深層学習,およびTMは,航空安全解析の効率と精度を著しく向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-30T19:15:04Z) - Deep Self-Supervised Disturbance Mapping with the OPERA Sentinel-1 Radiometric Terrain Corrected SAR Backscatter Product [41.94295877935867]
地表面の乱れのマッピングは、災害対応、資源と生態系の管理、気候適応の取り組みを支援する。
合成開口レーダ(SAR)は、気象や照明条件に関わらず、地上の連続した時系列画像を提供する、外乱マッピングのための貴重なツールである。
NASAのRemote Sensing Analysis (OPERA)プロジェクトは2023年10月にSentinel-1 (RTC-S1)データセットからほぼグローバルな測地線補正SAR後方散乱器をリリースした。
本研究では,地表面の乱れを体系的に解析するために,この新たなデータセットを利用する。
論文 参考訳(メタデータ) (2025-01-15T20:24:18Z) - Exploring Aviation Incident Narratives Using Topic Modeling and Clustering Techniques [0.0]
本研究は,国立運輸安全委員会(NTSB)データセットに高度自然言語処理(NLP)技術を適用した。
主な目的は、潜在テーマの識別、意味的関係の探索、確率的関係の評価、共有特性に基づくクラスタインシデントである。
比較分析の結果, LDAのコヒーレンス値は0.597, pLSAは0.583, LSAは0.542, NMFは0.437であった。
論文 参考訳(メタデータ) (2025-01-14T08:23:15Z) - Analyzing Aviation Safety Narratives with LDA, NMF and PLSA: A Case Study Using Socrata Datasets [0.0]
本研究は,1908年から2009年までのソクラタデータセットにおけるトピックモデリング手法の適用について検討した。
この分析では、パイロットエラー、機械的故障、天候条件、訓練不足などの重要なテーマを特定した。
今後の方向性としては、追加のコンテキスト変数の統合、ニューラルトピックモデルの利用、航空安全プロトコルの強化などがある。
論文 参考訳(メタデータ) (2025-01-03T08:14:39Z) - Comparative Analysis of Topic Modeling Techniques on ATSB Text Narratives Using Natural Language Processing [0.0]
本稿では、確率的潜在意味分析(pLSA)、潜在意味分析(LSA)、潜在ディリクレ割当(LDA)、非負行列分解(NMF)の4つの顕著なトピックモデリング手法の適用について検討する。
この研究は、各技術がデータ内に潜伏するテーマ構造を明らかにする能力を調べ、安全専門家に行動可能な洞察を得るための体系的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-01-02T12:21:07Z) - On the Generalization Properties of Deep Learning for Aircraft Fuel Flow Estimation Models [2.7336487680215815]
本稿では,燃料消費予測におけるディープラーニングモデルの一般化能力について検討する。
本稿では,ニューラルネットワークアーキテクチャとドメイン一般化技術を統合する新しい手法を提案する。
以前は目に見えない航空機に対して、航空機へのノイズの導入とエンジンパラメーターはモデルの一般化を改善した。
論文 参考訳(メタデータ) (2024-10-10T08:34:19Z) - Inferring Traffic Models in Terminal Airspace from Flight Tracks and Procedures [39.89295870460643]
本稿では,レーダ監視データから収集したプロシージャデータとフライトトラックから可変性を学習可能な簡易確率モデルを提案する。
我々は、ガウス混合モデルから一連の偏差をサンプリングし、航空機の軌道を再構築することで合成軌道を生成する。
本研究は、ジョン・F・ケネディ国際空港の着地軌道と着地手順に関するモデルについて紹介する。
論文 参考訳(メタデータ) (2023-03-17T13:58:06Z) - Wireless-Enabled Asynchronous Federated Fourier Neural Network for
Turbulence Prediction in Urban Air Mobility (UAM) [101.80862265018033]
垂直離着陸機(VTOL)が配車サービスに使用される都市空力(UAM)が提案されている。
UAMでは、航空機はエアロドロムを繋ぐ廊下として知られる指定空域で運用することができる。
GBSと航空機間の信頼性の高い通信網により、UAMは適切に空域を利用することができる。
論文 参考訳(メタデータ) (2021-12-26T14:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。