論文の概要: Benchmarking the Capabilities of Large Language Models in Transportation System Engineering: Accuracy, Consistency, and Reasoning Behaviors
- arxiv url: http://arxiv.org/abs/2408.08302v1
- Date: Thu, 15 Aug 2024 17:55:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:05:43.271386
- Title: Benchmarking the Capabilities of Large Language Models in Transportation System Engineering: Accuracy, Consistency, and Reasoning Behaviors
- Title(参考訳): 交通システム工学における大規模言語モデルの能力のベンチマーク:正確性、一貫性、推論行動
- Authors: Usman Syed, Ethan Light, Xingang Guo, Huan Zhang, Lianhui Qin, Yanfeng Ouyang, Bin Hu,
- Abstract要約: 幅広い分野の交通工学的問題のサンプルを含むベンチマークデータセットであるTransportBenchを紹介した。
このデータセットは、さまざまな商用およびオープンソースの大規模言語モデル(LLM)の能力を評価するために、人間の専門家によって使用される。
われわれの研究は、複雑な交通問題に人工知能を活用するための、すばらしい第一歩だ。
- 参考スコア(独自算出の注目度): 17.20186037322538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the capabilities of state-of-the-art large language models (LLMs) such as GPT-4, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, Llama 3, and Llama 3.1 in solving some selected undergraduate-level transportation engineering problems. We introduce TransportBench, a benchmark dataset that includes a sample of transportation engineering problems on a wide range of subjects in the context of planning, design, management, and control of transportation systems. This dataset is used by human experts to evaluate the capabilities of various commercial and open-sourced LLMs, especially their accuracy, consistency, and reasoning behaviors, in solving transportation engineering problems. Our comprehensive analysis uncovers the unique strengths and limitations of each LLM, e.g. our analysis shows the impressive accuracy and some unexpected inconsistent behaviors of Claude 3.5 Sonnet in solving TransportBench problems. Our study marks a thrilling first step toward harnessing artificial general intelligence for complex transportation challenges.
- Abstract(参考訳): 本稿では,GPT-4,GPT-4o,Claude 3.5 Sonnet,Claude 3 Opus,Gemini 1.5 Pro,Llama 3,Llama 3.1といった最先端の大規模言語モデル(LLM)の,選択した学部レベルの交通工学的問題を解決する能力について検討する。
我々は,交通システムの計画,設計,管理,制御に関して,幅広い分野の交通工学的問題のサンプルを含むベンチマークデータセットであるTransportBenchを紹介した。
このデータセットは、さまざまな商用およびオープンソース LLM の機能、特に輸送工学の問題を解決するための正確性、一貫性、推論の振る舞いを評価するために、人間の専門家によって使用される。
包括的解析により各LSMの強度と限界が明らかになった。例えば,TransportBench問題の解法におけるClaude 3.5 Sonnetの驚くべき精度と予期せぬ不整合性を示す。
われわれの研究は、複雑な交通問題に人工知能を活用するための、すばらしい第一歩だ。
関連論文リスト
- Beyond Words: Evaluating Large Language Models in Transportation Planning [0.0]
本研究では,大規模言語モデル(LLM),特にGPT-4とPhi-3-miniの評価を行い,交通計画の充実を図る。
この結果は、都市交通計画におけるGenAI技術の変革の可能性を示している。
論文 参考訳(メタデータ) (2024-09-22T16:20:00Z) - Leveraging Large Language Models with Chain-of-Thought and Prompt Engineering for Traffic Crash Severity Analysis and Inference [24.565253576049024]
本研究では,3つの最新言語モデル(LLM)をクラッシュ重大度推定に利用することを検討した。
ドメイン知識を取り入れた事前構築テンプレートを用いて,元のトラフィッククラッシュデータからテキストナラティブを生成する。
事故原因を解析し,その重症度を推定する上で, LLM を導くためにChain-of-Thought (CoT) 推論を取り入れた。
論文 参考訳(メタデータ) (2024-08-04T17:14:10Z) - Large Language Models for Mobility in Transportation Systems: A Survey on Forecasting Tasks [8.548422411704218]
機械学習とディープラーニングの方法は、その柔軟性と正確性に好まれる。
大規模言語モデル (LLMs) の出現に伴い、多くの研究者がこれらのモデルと過去の手法を組み合わせ、将来の交通情報や人間の旅行行動を直接予測するためにLLMを適用した。
論文 参考訳(メタデータ) (2024-05-03T02:54:43Z) - Capabilities of Large Language Models in Control Engineering: A Benchmark Study on GPT-4, Claude 3 Opus, and Gemini 1.0 Ultra [7.487691551328453]
GPT-4, Claude 3 Opus, Gemini 1.0 Ultra を用いて, 学部レベルの制御問題の解法について検討した。
我々は,人間専門家のパネルによる評価を行った。
我々の研究は、制御工学に人工知能を採用するという、より広い目標に向けた最初のステップとなる。
論文 参考訳(メタデータ) (2024-04-04T17:58:38Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models [46.862519898969325]
TransportationGamesは(M)LLMを評価するための評価ベンチマークである。
各種(M)LLMの性能を記憶し,理解し,選択したタスクによる交通知識の適用において検証する。
論文 参考訳(メタデータ) (2024-01-09T10:20:29Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z) - A Bibliometric Analysis and Review on Reinforcement Learning for
Transportation Applications [43.356096302298056]
交通は経済と都市の発展のバックボーンである。
自律的な意思決定者が複雑な環境と対話できるようにする強化学習(RL)。
本稿では, 交通用RL法の開発状況を明らかにするために, 文献分析を行った。
論文 参考訳(メタデータ) (2022-10-26T07:34:51Z) - The 5th AI City Challenge [51.83023045451549]
第5回AIシティチャレンジには38カ国305チームが参加した。
アルゴリズムの有効性と計算効率の両面で評価を行った。
結果は、スマートトランスポーテーションにおけるAIの約束を示している。
論文 参考訳(メタデータ) (2021-04-25T19:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。