論文の概要: Durghotona GPT: A Web Scraping and Large Language Model Based Framework to Generate Road Accident Dataset Automatically in Bangladesh
- arxiv url: http://arxiv.org/abs/2504.21025v1
- Date: Wed, 23 Apr 2025 04:30:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 02:18:38.722318
- Title: Durghotona GPT: A Web Scraping and Large Language Model Based Framework to Generate Road Accident Dataset Automatically in Bangladesh
- Title(参考訳): Durghotona GPT:バングラデシュの道路事故を自動的に生成するWebストラップと大規模言語モデルベースのフレームワーク
- Authors: MD Thamed Bin Zaman Chowdhury, Moazzem Hossain, Md. Ridwanul Islam,
- Abstract要約: 本稿では,WebスクレイピングとLarge Language Models(LLMs)を統合した新しいフレームワークであるDurghotona GPTを提案する。
このフレームワークは、関連情報を効率的に抽出し、レポートを分類し、詳細なデータセットをコンパイルする。
交通安全分析、都市計画、公衆衛生における重要な応用を支援することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Road accidents pose significant concerns globally. They lead to large financial losses, injuries, disabilities, and societal challenges. Accurate and timely accident data is essential for predicting and mitigating these events. This paper presents a novel framework named 'Durghotona GPT' that integrates web scraping and Large Language Models (LLMs) to automate the generation of comprehensive accident datasets from prominent national dailies in Bangladesh. The authors collected accident reports from three major newspapers: Prothom Alo, Dhaka Tribune, and The Daily Star. The collected news was then processed using the newest available LLMs: GPT-4, GPT-3.5, and Llama-3. The framework efficiently extracts relevant information, categorizes reports, and compiles detailed datasets. Thus, this framework overcomes limitations of manual data collection methods such as delays, errors, and communication gaps. The authors' evaluation demonstrates that Llama-3, an open-source model, performs comparably to GPT-4. It achieved 89% accuracy in the authors' evaluation. Therefore, it can be considered a cost-effective alternative for similar tasks. The results suggest that the framework developed by the authors can drastically enhance the quality and availability of accident data. As a result, it can support critical applications in traffic safety analysis, urban planning, and public health. The authors also developed an interface for 'Durghotona GPT' for ease of use as part of this paper. Future work will focus on expanding data collection methods and refining LLMs to further increase dataset accuracy and applicability.
- Abstract(参考訳): 道路事故は世界中で大きな懸念を巻き起こしている。
財政的損失、負傷、障害、社会的な困難に繋がる。
これらの事象を予測し緩和するためには、正確なタイムリーな事故データが不可欠である。
本稿では,バングラデシュの著名な日誌から総合的な事故データセットを生成するために,WebスクレイピングとLarge Language Models(LLMs)を統合した新しいフレームワーク「Durghotona GPT」を提案する。
著者らは、Prothom Alo、Dhaka Tribune、The Daily Starの3つの主要な新聞から事故報告書を収集した。
収集されたニュースは、GPT-4、GPT-3.5、Llama-3といった最新のLLMを使用して処理された。
このフレームワークは、関連情報を効率的に抽出し、レポートを分類し、詳細なデータセットをコンパイルする。
このように、このフレームワークは遅延、エラー、通信ギャップなどの手動データ収集手法の制限を克服する。
筆者らの評価は,オープンソースモデルであるLlama-3がGPT-4と同等に動作することを示した。
著者の評価では89%の精度が得られた。
したがって、同様のタスクに対する費用対効果の代替と見なすことができる。
その結果,著者らが開発したフレームワークは,事故データの品質と可用性を大幅に向上させることができることが示唆された。
その結果、交通安全分析、都市計画、公衆衛生における重要な応用を支援することができる。
筆者らは,本論文の一部として,使い易い「Durghotona GPT」のインターフェースも開発した。
今後の作業では、データセットの正確性と適用性をさらに向上するために、データ収集方法の拡張とLLMの精錬に注力する予定である。
関連論文リスト
- Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - Large Language Models for Next Point-of-Interest Recommendation [53.93503291553005]
位置情報ベースのソーシャルネットワーク(LBSN)データは、しばしば次のPoint of Interest(POI)レコメンデーションタスクに使用される。
しばしば無視される課題の1つは、LBSNデータに存在する豊富なコンテキスト情報を効果的に利用する方法である。
本稿では,この課題に対処するために,LLM(Large Language Models)を用いたフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T13:28:36Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。