論文の概要: Leveraging Large Language Models with Chain-of-Thought and Prompt Engineering for Traffic Crash Severity Analysis and Inference
- arxiv url: http://arxiv.org/abs/2408.04652v1
- Date: Sun, 4 Aug 2024 17:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 04:16:58.042262
- Title: Leveraging Large Language Models with Chain-of-Thought and Prompt Engineering for Traffic Crash Severity Analysis and Inference
- Title(参考訳): 交通事故重大度分析と推論のためのチェーン・オブ・サートとプロンプト・エンジニアリングによる大規模言語モデルの活用
- Authors: Hao Zhen, Yucheng Shi, Yongcan Huang, Jidong J. Yang, Ninghao Liu,
- Abstract要約: 本研究では,3つの最新言語モデル(LLM)をクラッシュ重大度推定に利用することを検討した。
ドメイン知識を取り入れた事前構築テンプレートを用いて,元のトラフィッククラッシュデータからテキストナラティブを生成する。
事故原因を解析し,その重症度を推定する上で, LLM を導くためにChain-of-Thought (CoT) 推論を取り入れた。
- 参考スコア(独自算出の注目度): 24.565253576049024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harnessing the power of Large Language Models (LLMs), this study explores the use of three state-of-the-art LLMs, specifically GPT-3.5-turbo, LLaMA3-8B, and LLaMA3-70B, for crash severity inference, framing it as a classification task. We generate textual narratives from original traffic crash tabular data using a pre-built template infused with domain knowledge. Additionally, we incorporated Chain-of-Thought (CoT) reasoning to guide the LLMs in analyzing the crash causes and then inferring the severity. This study also examine the impact of prompt engineering specifically designed for crash severity inference. The LLMs were tasked with crash severity inference to: (1) evaluate the models' capabilities in crash severity analysis, (2) assess the effectiveness of CoT and domain-informed prompt engineering, and (3) examine the reasoning abilities with the CoT framework. Our results showed that LLaMA3-70B consistently outperformed the other models, particularly in zero-shot settings. The CoT and Prompt Engineering techniques significantly enhanced performance, improving logical reasoning and addressing alignment issues. Notably, the CoT offers valuable insights into LLMs' reasoning processes, unleashing their capacity to consider diverse factors such as environmental conditions, driver behavior, and vehicle characteristics in severity analysis and inference.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) のパワーを生かして,GPT-3.5-turbo, LLaMA3-8B, LLaMA3-70B の3つの最先端 LLM をクラッシュ重大性推論に利用し,それらを分類タスクとして利用することを検討した。
我々は、ドメイン知識を取り入れた事前構築テンプレートを用いて、オリジナルのトラフィッククラッシュ表データからテキスト物語を生成する。
さらに, 衝突原因の解析においてLCMを誘導し, 深刻度を推定するためにChain-of-Thought(CoT)推論を組み込んだ。
また, 本研究は, 衝突重大度推定に特化して設計されたプロンプトエンジニアリングの影響についても検討した。
1)衝突重大度解析におけるモデルの能力評価,(2)CoTとドメインインフォームド・プロンプト・エンジニアリングの有効性評価,(3)CoTフレームワークによる推論能力の検討。
以上の結果から,LLaMA3-70Bは他のモデル,特にゼロショット設定では一貫して優れていた。
CoTとPrompt Engineeringの技術は性能を大幅に向上させ、論理的推論を改善し、アライメントの問題に対処した。
特に、COTはLSMの推論プロセスに関する貴重な洞察を提供し、環境条件、運転者行動、重大度分析と推論における車両特性など様々な要因を考慮できる能力を公開した。
関連論文リスト
- On the Impact of Fine-Tuning on Chain-of-Thought Reasoning [26.11408084129897]
本研究では,大規模言語モデルの推論能力に及ぼす微調整の影響について検討した。
タスク固有の微調整が全体的な推論能力に与える影響、微調整がCoT推論性能に及ぼす影響、そしてCoT推論の忠実性に与える影響に関する疑問に対処する。
論文 参考訳(メタデータ) (2024-11-22T23:54:37Z) - A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions [15.350973327319418]
大規模言語モデル(LLM)は、ますます広範囲の日常アプリケーションに統合されている。
このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。
GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70Bをチェーン・オブ・ソート, EmotionPrompting, ExpertPrompting, Sandbagging, Re-Reading prompt Engineering Techniqueでテストした。
論文 参考訳(メタデータ) (2024-09-30T14:00:34Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Steamroller Problems: An Evaluation of LLM Reasoning Capability with Automated Theorem Prover Strategies [0.18416014644193066]
GPT4, GPT3.5 TurboおよびGoogleのGeminiモデルの性能をスチームローラー領域の問題に対して評価した。
ATP推論戦略を用いた場合のモデルの性能はワンショットの思考に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-07-17T22:49:23Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。