Fugu-MT 論文翻訳(概要): TransportationGames: Benchmarking Transportation Knowledge of (Multimodal) Large Language Models

論文の概要: TransportationGames: Benchmarking Transportation Knowledge of (Multimodal) Large Language Models

arxiv url: http://arxiv.org/abs/2401.04471v1
Date: Tue, 9 Jan 2024 10:20:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 16:09:36.269047
Title: TransportationGames: Benchmarking Transportation Knowledge of (Multimodal) Large Language Models
Title（参考訳）: TransportationGames:(マルチモーダル)大規模言語モデルの交通知識のベンチマーク
Authors: Xue Zhang, Xiangyu Shi, Xinyue Lou, Rui Qi, Yufeng Chen, Jinan Xu, Wenjuan Han
Abstract要約: TransportationGamesは(M)LLMを評価するための評価ベンチマークである。各種(M)LLMの性能を記憶し,理解し,選択したタスクによる交通知識の適用において検証する。
参考スコア（独自算出の注目度）: 46.862519898969325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) and multimodal large language models (MLLMs) have shown excellent general capabilities, even exhibiting adaptability in many professional domains such as law, economics, transportation, and medicine. Currently, many domain-specific benchmarks have been proposed to verify the performance of (M)LLMs in specific fields. Among various domains, transportation plays a crucial role in modern society as it impacts the economy, the environment, and the quality of life for billions of people. However, it is unclear how much traffic knowledge (M)LLMs possess and whether they can reliably perform transportation-related tasks. To address this gap, we propose TransportationGames, a carefully designed and thorough evaluation benchmark for assessing (M)LLMs in the transportation domain. By comprehensively considering the applications in real-world scenarios and referring to the first three levels in Bloom's Taxonomy, we test the performance of various (M)LLMs in memorizing, understanding, and applying transportation knowledge by the selected tasks. The experimental results show that although some models perform well in some tasks, there is still much room for improvement overall. We hope the release of TransportationGames can serve as a foundation for future research, thereby accelerating the implementation and application of (M)LLMs in the transportation domain.
Abstract（参考訳）: 大規模言語モデル(LLM)とマルチモーダル言語モデル(MLLM)は優れた汎用能力を示しており、法律、経済学、輸送、医学など多くの専門分野において適応性を示している。現在、特定の分野における(M)LLMの性能を検証するために多くのドメイン固有ベンチマークが提案されている。様々な分野において、交通は数十億人の人々の経済、環境、生活の質に影響を与えるため、現代社会において重要な役割を担っている。しかし,交通知識(M)LLMがどの程度持っているか,交通関連タスクを確実に実行できるかは不明である。このギャップに対処するため,交通分野における(M)LLMの評価のための,慎重に設計された徹底的な評価ベンチマークであるTransportGamesを提案する。実世界のシナリオにおける応用を包括的に検討し,ブルームの分類学の最初の3段階を参照することにより,選択したタスクによる交通知識の記憶,理解,適用において,様々な(M)LLMの性能を検証した。実験の結果、いくつかのモデルではうまく機能するが、全体的な改善の余地は十分にあることが示された。我々は、TransportGamesのリリースが将来の研究の基盤となり、交通分野における(M)LLMの実装と適用を加速することを期待している。

関連論文リスト

Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap [51.198001060683296]
大型言語モデル(LLM)は、輸送上の課題に対処するための変革的な可能性を提供する。 LLM4TRは,交通におけるLSMの役割を体系的に分類する概念的枠組みである。それぞれの役割について,交通予測や自律運転,安全分析,都市移動最適化など,さまざまな応用について検討した。
論文参考訳（メタデータ） (2025-03-27T11:56:27Z)
Independent Mobility GPT (IDM-GPT): A Self-Supervised Multi-Agent Large Language Model Framework for Customized Traffic Mobility Analysis Using Machine Learning Models [1.1534313664323634]
研究チームは、Independent Mobility GPT(IDM-GPT)という革新的なマルチエージェントフレームワークを提案する。 IDM-GPTは、ユーザー、交通データベース、機械学習モデルを経済的に効率的に接続する。 IDM-GPTのトレーニング、カスタマイズ、ユーザクエリの理解、最適化、データ分析、モデル選択、パフォーマンス評価と拡張など、複数の機能にLLMベースのAIエージェントを適用。
論文参考訳（メタデータ） (2025-02-25T21:28:15Z)
Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-01-04T07:44:49Z)
Advancing Object Detection in Transportation with Multimodal Large Language Models (MLLMs): A Comprehensive Review and Empirical Testing [4.79071544824946]
本研究の目的は,多モード大言語モデル (MLLM) と大規模視覚モデル (VLM) の交通システムにおけるオブジェクト検出への応用を総合的に検証し,実証的に評価することである。
論文参考訳（メタデータ） (2024-09-26T20:58:11Z)
A Survey on Benchmarks of Multimodal Large Language Models [65.87641718350639]
本稿では,Multimodal Large Language Models (MLLM) のベンチマークと評価について概説する。本研究では,(1)知覚と理解,(2)認知と推論,(3)特定のドメイン,(4)キー能力,(5)他のモダリティに着目した。我々のキーとなる主張は、MLLMの開発をより良いものにするための重要な規律として評価されるべきである、ということである。
論文参考訳（メタデータ） (2024-08-16T09:52:02Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文参考訳（メタデータ） (2024-05-17T12:37:10Z)
Large Language Models for Mobility in Transportation Systems: A Survey on Forecasting Tasks [8.548422411704218]
機械学習とディープラーニングの方法は、その柔軟性と正確性に好まれる。大規模言語モデル (LLMs) の出現に伴い、多くの研究者がこれらのモデルと過去の手法を組み合わせ、将来の交通情報や人間の旅行行動を直接予測するためにLLMを適用した。
論文参考訳（メタデータ） (2024-05-03T02:54:43Z)
MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。 MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文参考訳（メタデータ） (2024-04-24T17:37:05Z)
A Survey on Multimodal Large Language Models for Autonomous Driving [31.614730391949657]
大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
論文参考訳（メタデータ） (2023-11-21T03:32:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。