論文の概要: TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models
- arxiv url: http://arxiv.org/abs/2401.04471v1
- Date: Tue, 9 Jan 2024 10:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 16:09:36.269047
- Title: TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models
- Title(参考訳): TransportationGames:(マルチモーダル)大規模言語モデルの交通知識のベンチマーク
- Authors: Xue Zhang, Xiangyu Shi, Xinyue Lou, Rui Qi, Yufeng Chen, Jinan Xu,
Wenjuan Han
- Abstract要約: TransportationGamesは(M)LLMを評価するための評価ベンチマークである。
各種(M)LLMの性能を記憶し,理解し,選択したタスクによる交通知識の適用において検証する。
- 参考スコア(独自算出の注目度): 46.862519898969325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) and multimodal large language models (MLLMs)
have shown excellent general capabilities, even exhibiting adaptability in many
professional domains such as law, economics, transportation, and medicine.
Currently, many domain-specific benchmarks have been proposed to verify the
performance of (M)LLMs in specific fields. Among various domains,
transportation plays a crucial role in modern society as it impacts the
economy, the environment, and the quality of life for billions of people.
However, it is unclear how much traffic knowledge (M)LLMs possess and whether
they can reliably perform transportation-related tasks. To address this gap, we
propose TransportationGames, a carefully designed and thorough evaluation
benchmark for assessing (M)LLMs in the transportation domain. By
comprehensively considering the applications in real-world scenarios and
referring to the first three levels in Bloom's Taxonomy, we test the
performance of various (M)LLMs in memorizing, understanding, and applying
transportation knowledge by the selected tasks. The experimental results show
that although some models perform well in some tasks, there is still much room
for improvement overall. We hope the release of TransportationGames can serve
as a foundation for future research, thereby accelerating the implementation
and application of (M)LLMs in the transportation domain.
- Abstract(参考訳): 大規模言語モデル(LLM)とマルチモーダル言語モデル(MLLM)は優れた汎用能力を示しており、法律、経済学、輸送、医学など多くの専門分野において適応性を示している。
現在、特定の分野における(M)LLMの性能を検証するために多くのドメイン固有ベンチマークが提案されている。
様々な分野において、交通は数十億人の人々の経済、環境、生活の質に影響を与えるため、現代社会において重要な役割を担っている。
しかし,交通知識(M)LLMがどの程度持っているか,交通関連タスクを確実に実行できるかは不明である。
このギャップに対処するため,交通分野における(M)LLMの評価のための,慎重に設計された徹底的な評価ベンチマークであるTransportGamesを提案する。
実世界のシナリオにおける応用を包括的に検討し,ブルームの分類学の最初の3段階を参照することにより,選択したタスクによる交通知識の記憶,理解,適用において,様々な(M)LLMの性能を検証した。
実験の結果、いくつかのモデルではうまく機能するが、全体的な改善の余地は十分にあることが示された。
我々は、TransportGamesのリリースが将来の研究の基盤となり、交通分野における(M)LLMの実装と適用を加速することを期待している。
関連論文リスト
- Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing [4.79071544824946]
本研究の目的は,多モード大言語モデル (MLLM) と大規模視覚モデル (VLM) の交通システムにおけるオブジェクト検出への応用を総合的に検証し,実証的に評価することである。
論文 参考訳(メタデータ) (2024-09-26T20:58:11Z) - A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。
本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。
我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文 参考訳(メタデータ) (2024-08-16T09:52:02Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Large Language Models for Mobility in Transportation Systems: A Survey on Forecasting Tasks [8.548422411704218]
機械学習とディープラーニングの方法は、その柔軟性と正確性に好まれる。
大規模言語モデル (LLMs) の出現に伴い、多くの研究者がこれらのモデルと過去の手法を組み合わせ、将来の交通情報や人間の旅行行動を直接予測するためにLLMを適用した。
論文 参考訳(メタデータ) (2024-05-03T02:54:43Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - A Survey on Multimodal Large Language Models for Autonomous Driving [31.614730391949657]
大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-11-21T03:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。