論文の概要: Large Language Models in Analyzing Crash Narratives -- A Comparative
Study of ChatGPT, BARD and GPT-4
- arxiv url: http://arxiv.org/abs/2308.13563v1
- Date: Fri, 25 Aug 2023 00:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 20:39:03.908158
- Title: Large Language Models in Analyzing Crash Narratives -- A Comparative
Study of ChatGPT, BARD and GPT-4
- Title(参考訳): クラッシュ・ナラティブの分析における大規模言語モデル-ChatGPT, BARD, GPT-4の比較検討
- Authors: Maroa Mumtarin, Md Samiullah Chowdhury, Jonathan Wood
- Abstract要約: 交通安全研究において,テキスト分析を用いた事故談話から情報を抽出することが一般的である。
本研究は、ChatGPT, BARD, GPT4の3つのLLMインタフェースを用いている。
LLMの全体的な類似性は, 70%, 35%, 96%, 89%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In traffic safety research, extracting information from crash narratives
using text analysis is a common practice. With recent advancements of large
language models (LLM), it would be useful to know how the popular LLM
interfaces perform in classifying or extracting information from crash
narratives. To explore this, our study has used the three most popular publicly
available LLM interfaces- ChatGPT, BARD and GPT4. This study investigated their
usefulness and boundaries in extracting information and answering queries
related to accidents from 100 crash narratives from Iowa and Kansas. During the
investigation, their capabilities and limitations were assessed and their
responses to the queries were compared. Five questions were asked related to
the narratives: 1) Who is at-fault? 2) What is the manner of collision? 3) Has
the crash occurred in a work-zone? 4) Did the crash involve pedestrians? and 5)
What are the sequence of harmful events in the crash? For questions 1 through
4, the overall similarity among the LLMs were 70%, 35%, 96% and 89%,
respectively. The similarities were higher while answering direct questions
requiring binary responses and significantly lower for complex questions. To
compare the responses to question 5, network diagram and centrality measures
were analyzed. The network diagram from the three LLMs were not always similar
although they sometimes have the same influencing events with high in-degree,
out-degree and betweenness centrality. This study suggests using multiple
models to extract viable information from narratives. Also, caution must be
practiced while using these interfaces to obtain crucial safety related
information.
- Abstract(参考訳): 交通安全研究においては,テキスト解析による衝突物語からの情報抽出が一般的である。
近年の大型言語モデル (LLM) の進歩により, 一般的なLLMインタフェースが, クラッシュの物語から情報の分類や抽出においてどのように機能するかを知ることが有用である。
そこで本研究では,ChatGPT,BARD,GPT4の3つのLLMインタフェースについて検討した。
本研究は,アイオワ州とカンザス州で発生した100件の事故事例から,情報抽出および事故関連質問への回答における有用性と境界について検討した。
調査期間中、それらの能力と制限を評価し、クエリに対する応答を比較した。
物語にまつわる5つの質問がある。
1)at-faultは誰ですか?
2)衝突の方法とは何か。
3)ワークゾーンで事故が発生しましたか?
4) 事故は歩行者を巻き込んだか?
そして
5)事故における有害事象の系列はどのようなものか。
質問1~4では, LLMの総合的類似度はそれぞれ70%, 35%, 96%, 89%であった。
類似性は、二分反応を必要とする直接的な質問に答える一方で高く、複雑な質問では著しく低かった。
質問5に対する回答を比較するために,ネットワーク図と集中度尺度を分析した。
3つのLSMのネットワーク図は必ずしも似ているわけではないが、時折、高緯度、外緯度、中間度で同じ事象が起こることがある。
本研究は,複数のモデルを用いて物語から実行可能な情報を抽出することを提案する。
また、これらのインターフェースを使用して重要な安全関連情報を取得する際にも注意が必要である。
関連論文リスト
- Retrieval Helps or Hurts? A Deeper Dive into the Efficacy of Retrieval Augmentation to Language Models [7.537599020279862]
大規模言語モデル(LM)における実体と関係の組合せの効果について検討する。
多様なLMと検索器を用いた実験により,検索がファクト中心の人気の観点から常にLMを向上しないことが明らかとなった。
適応型検索システムを用いて,より微細な測定値と洞察値の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-21T03:05:50Z) - What Evidence Do Language Models Find Convincing? [103.67867531892988]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey [37.23549715726323]
大規模言語モデル(LLM)が会話アプリケーションで一般的なものになった。
有害な反応を引き起こすために悪用されるリスクは、深刻な社会的懸念を引き起こしている。
論文 参考訳(メタデータ) (2024-02-14T16:14:03Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - A Glitch in the Matrix? Locating and Detecting Language Model Grounding
with Fakepedia [68.00056517461402]
大規模言語モデル(LLM)は、そのコンテキストで提供される新しい情報を引き出すという印象的な能力を持つ。
しかし、この文脈的基盤のメカニズムはいまだに不明である。
本稿では,Fakepedia を用いたグラウンドディング能力の研究手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T17:35:42Z) - Fake Alignment: Are LLMs Really Aligned Well? [94.30212931938169]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
Fake alIgNment Evaluation frameworkとConsistency Score(CS)とConsistent Safety Score(CSS)の2つの新しいメトリクスについて紹介する。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Can Large Language Models Infer Causation from Correlation? [80.38419293391397]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Language Models are Causal Knowledge Extractors for Zero-shot Video
Question Answering [60.93164850492871]
Causal Video Question Answering (CVidQA)は、関連性や時間的関係だけでなく、ビデオ内の因果関係も問う。
本稿では,言語モデルからの因果共通知識を利用してCVidQAに取り組む,CaKE-LM(Causal Knowledge extract from Language Models)を提案する。
CaKE-LMは、NExT-QAおよびCausal-VidQAデータセットにおいて、ゼロショットCVidQAの精度の4%から6%で従来の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-04-07T17:45:49Z) - Human error in motorcycle crashes: a methodology based on in-depth data
to identify the skills needed and support training interventions for safe
riding [0.0]
本稿では,事故発生率を抑えるため,最も高いリスククラッシュ構成において,ライダーが必要とするスキルを識別する手法を定義する。
本稿では803基の2輪車衝突事故の詳細なデータを用いたケーススタディを提案する。
論文 参考訳(メタデータ) (2021-02-19T21:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。