Fugu-MT 論文翻訳(概要): Large Language Models in Analyzing Crash Narratives -- A Comparative Study of ChatGPT, BARD and GPT-4

論文の概要: Large Language Models in Analyzing Crash Narratives -- A Comparative Study of ChatGPT, BARD and GPT-4

arxiv url: http://arxiv.org/abs/2308.13563v1
Date: Fri, 25 Aug 2023 00:09:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 20:39:03.908158
Title: Large Language Models in Analyzing Crash Narratives -- A Comparative Study of ChatGPT, BARD and GPT-4
Title（参考訳）: クラッシュ・ナラティブの分析における大規模言語モデル-ChatGPT, BARD, GPT-4の比較検討
Authors: Maroa Mumtarin, Md Samiullah Chowdhury, Jonathan Wood
Abstract要約: 交通安全研究において,テキスト分析を用いた事故談話から情報を抽出することが一般的である。本研究は、ChatGPT, BARD, GPT4の3つのLLMインタフェースを用いている。 LLMの全体的な類似性は, 70%, 35%, 96%, 89%であった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In traffic safety research, extracting information from crash narratives using text analysis is a common practice. With recent advancements of large language models (LLM), it would be useful to know how the popular LLM interfaces perform in classifying or extracting information from crash narratives. To explore this, our study has used the three most popular publicly available LLM interfaces- ChatGPT, BARD and GPT4. This study investigated their usefulness and boundaries in extracting information and answering queries related to accidents from 100 crash narratives from Iowa and Kansas. During the investigation, their capabilities and limitations were assessed and their responses to the queries were compared. Five questions were asked related to the narratives: 1) Who is at-fault? 2) What is the manner of collision? 3) Has the crash occurred in a work-zone? 4) Did the crash involve pedestrians? and 5) What are the sequence of harmful events in the crash? For questions 1 through 4, the overall similarity among the LLMs were 70%, 35%, 96% and 89%, respectively. The similarities were higher while answering direct questions requiring binary responses and significantly lower for complex questions. To compare the responses to question 5, network diagram and centrality measures were analyzed. The network diagram from the three LLMs were not always similar although they sometimes have the same influencing events with high in-degree, out-degree and betweenness centrality. This study suggests using multiple models to extract viable information from narratives. Also, caution must be practiced while using these interfaces to obtain crucial safety related information.
Abstract（参考訳）: 交通安全研究においては,テキスト解析による衝突物語からの情報抽出が一般的である。近年の大型言語モデル (LLM) の進歩により, 一般的なLLMインタフェースが, クラッシュの物語から情報の分類や抽出においてどのように機能するかを知ることが有用である。そこで本研究では,ChatGPT,BARD,GPT4の3つのLLMインタフェースについて検討した。本研究は,アイオワ州とカンザス州で発生した100件の事故事例から,情報抽出および事故関連質問への回答における有用性と境界について検討した。調査期間中、それらの能力と制限を評価し、クエリに対する応答を比較した。物語にまつわる5つの質問がある。 1)at-faultは誰ですか? 2)衝突の方法とは何か。 3)ワークゾーンで事故が発生しましたか? 4) 事故は歩行者を巻き込んだか? そして 5)事故における有害事象の系列はどのようなものか。質問1～4では, LLMの総合的類似度はそれぞれ70%, 35%, 96%, 89%であった。類似性は、二分反応を必要とする直接的な質問に答える一方で高く、複雑な質問では著しく低かった。質問5に対する回答を比較するために,ネットワーク図と集中度尺度を分析した。 3つのLSMのネットワーク図は必ずしも似ているわけではないが、時折、高緯度、外緯度、中間度で同じ事象が起こることがある。本研究は,複数のモデルを用いて物語から実行可能な情報を抽出することを提案する。また、これらのインターフェースを使用して重要な安全関連情報を取得する際にも注意が必要である。

関連論文リスト

How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study [90.34190170330481]
大規模推論モデル(LRM)は数学やプログラミングのような推論集約的なタスクにおいて顕著な成功を収めた。しかし、その強化された推論能力は必ずしも安全性能の向上に必ずしも寄与しない。スーパーバイザード・ファイン・チューニング(Supervised Fine-Tuning)によるLEMの安全性向上に関する総合的な実証研究について述べる。
論文参考訳（メタデータ） (2025-05-21T11:45:29Z)
Advanced Crash Causation Analysis for Freeway Safety: A Large Language Model Approach to Identifying Key Contributing Factors [0.0]
本研究は,大規模言語モデル(LLM)を利用して高速道路の事故データを解析し,それに応じて事故原因分析を行う。微調整されたLlama3 8Bモデルは、ゼロショット分類によって事前にラベル付けされたデータなしでクラッシュ因果を識別するために使用された。その結果, LLMはアルコール欠乏運転, スピード, 積極的運転, 運転不注意などの事故原因を効果的に同定できることが示唆された。
論文参考訳（メタデータ） (2025-05-15T04:07:55Z)
CrashSage: A Large Language Model-Centered Framework for Contextual and Interpretable Traffic Crash Analysis [0.46040036610482665]
道路事故は毎年130万人が死亡し、世界経済の損失は18兆ドルを超えたと主張している。 CrashSageは, 4つの重要なイノベーションを通じて, クラッシュ解析とモデリングを促進するために設計された, LLM(Large Language Model)中心のフレームワークである。
論文参考訳（メタデータ） (2025-05-08T00:23:18Z)
Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models [30.066436019078164]
推論タスクを行う際に,大規模言語モデルが採用する一般化戦略について検討する。以上の結果から, モデルを用いた推論手法は検索と異なり, より一般化可能な戦略であることが示唆された。
論文参考訳（メタデータ） (2024-11-19T15:47:12Z)
Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文参考訳（メタデータ） (2024-10-31T12:48:58Z)
Comparison of Large Language Models for Generating Contextually Relevant Questions [6.080820450677854]
GPT-3.5、Llama 2-Chat 13B、T5 XXLは、微調整なしで大学のスライドテキストから質問を生成する能力を比較する。その結果, GPT-3.5 と Llama 2-Chat 13B は T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。
論文参考訳（メタデータ） (2024-07-30T06:23:59Z)
When Reasoning Meets Information Aggregation: A Case Study with Sports Narratives [46.04238534224658]
スポーツ物語の分析を LLM が要求する推論における情報集約の重要性について検討する。我々はNBAの実際のバスケットボールデータを用いて総合的な実験を行い、ゲーム物語を合成する新しい手法であるSportsGenを提示する。その結果, GPT-4oを含むほとんどのモデルでは, 頻繁な得点パターンのため, バスケットボールの得点を正確に集計することができないことが判明した。
論文参考訳（メタデータ） (2024-06-17T20:49:35Z)
Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文参考訳（メタデータ） (2024-06-16T03:10:16Z)
Exploring Traffic Crash Narratives in Jordan Using Text Mining Analytics [4.465427147188149]
この研究は、2018-2022年の7,587件の記録をカバーしたヨルダンの5つの主要高速道路の事故データを収集した。事故データからパターンを学習するために,教師なし学習法を採用した。その結果,テキストマイニング分析は有望な手法であり,交通事故の多因子的性質を裏付けるものであることがわかった。
論文参考訳（メタデータ） (2024-06-11T20:07:39Z)
What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文参考訳（メタデータ） (2024-02-19T02:15:34Z)
The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (2024-01-01T14:02:27Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering [60.93164850492871]
Causal Video Question Answering (CVidQA)は、関連性や時間的関係だけでなく、ビデオ内の因果関係も問う。本稿では,言語モデルからの因果共通知識を利用してCVidQAに取り組む,CaKE-LM(Causal Knowledge extract from Language Models)を提案する。 CaKE-LMは、NExT-QAおよびCausal-VidQAデータセットにおいて、ゼロショットCVidQAの精度の4%から6%で従来の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2023-04-07T17:45:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。