論文の概要: TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models
- arxiv url: http://arxiv.org/abs/2401.04471v1
- Date: Tue, 9 Jan 2024 10:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 16:09:36.269047
- Title: TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models
- Title(参考訳): TransportationGames:(マルチモーダル)大規模言語モデルの交通知識のベンチマーク
- Authors: Xue Zhang, Xiangyu Shi, Xinyue Lou, Rui Qi, Yufeng Chen, Jinan Xu,
Wenjuan Han
- Abstract要約: TransportationGamesは(M)LLMを評価するための評価ベンチマークである。
各種(M)LLMの性能を記憶し,理解し,選択したタスクによる交通知識の適用において検証する。
- 参考スコア(独自算出の注目度): 46.862519898969325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) and multimodal large language models (MLLMs)
have shown excellent general capabilities, even exhibiting adaptability in many
professional domains such as law, economics, transportation, and medicine.
Currently, many domain-specific benchmarks have been proposed to verify the
performance of (M)LLMs in specific fields. Among various domains,
transportation plays a crucial role in modern society as it impacts the
economy, the environment, and the quality of life for billions of people.
However, it is unclear how much traffic knowledge (M)LLMs possess and whether
they can reliably perform transportation-related tasks. To address this gap, we
propose TransportationGames, a carefully designed and thorough evaluation
benchmark for assessing (M)LLMs in the transportation domain. By
comprehensively considering the applications in real-world scenarios and
referring to the first three levels in Bloom's Taxonomy, we test the
performance of various (M)LLMs in memorizing, understanding, and applying
transportation knowledge by the selected tasks. The experimental results show
that although some models perform well in some tasks, there is still much room
for improvement overall. We hope the release of TransportationGames can serve
as a foundation for future research, thereby accelerating the implementation
and application of (M)LLMs in the transportation domain.
- Abstract(参考訳): 大規模言語モデル(LLM)とマルチモーダル言語モデル(MLLM)は優れた汎用能力を示しており、法律、経済学、輸送、医学など多くの専門分野において適応性を示している。
現在、特定の分野における(M)LLMの性能を検証するために多くのドメイン固有ベンチマークが提案されている。
様々な分野において、交通は数十億人の人々の経済、環境、生活の質に影響を与えるため、現代社会において重要な役割を担っている。
しかし,交通知識(M)LLMがどの程度持っているか,交通関連タスクを確実に実行できるかは不明である。
このギャップに対処するため,交通分野における(M)LLMの評価のための,慎重に設計された徹底的な評価ベンチマークであるTransportGamesを提案する。
実世界のシナリオにおける応用を包括的に検討し,ブルームの分類学の最初の3段階を参照することにより,選択したタスクによる交通知識の記憶,理解,適用において,様々な(M)LLMの性能を検証した。
実験の結果、いくつかのモデルではうまく機能するが、全体的な改善の余地は十分にあることが示された。
我々は、TransportGamesのリリースが将来の研究の基盤となり、交通分野における(M)LLMの実装と適用を加速することを期待している。
関連論文リスト
- OVEL: Large Language Model as Memory Manager for Online Video Entity
Linking [57.70595589893391]
我々は,オンラインビデオにおける言及と,高精度かつ時系列の知識ベースとの接続を確立することを目的とした,オンラインビデオエンティティリンクOVELというタスクを提案する。
OVEL タスクを効果的に処理するために,Large Language Model が管理するメモリブロックを活用し,知識ベースからエンティティ候補を抽出し,メモリ管理における LLM 性能を向上させる。
論文 参考訳(メタデータ) (2024-03-03T06:47:51Z) - TransGPT: Multi-modal Generative Pre-trained Transformer for
Transportation [19.184173455587263]
本稿ではトランスGPT(TransGPT)について述べる。
シングルモーダルデータ用TransGPT-SMとマルチモーダルデータ用TransGPT-MMの2つの独立した変種で構成されている。
この研究は、輸送分野におけるNLPの最先端を推し進め、ITSの研究者や実践者にとって有用なツールを提供する。
論文 参考訳(メタデータ) (2024-02-11T15:50:35Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Large Language Model based Multi-Agents: A Survey of Progress and
Challenges [46.857697157523994]
大規模言語モデル(LLM)は、幅広いタスクで大きな成功を収めています。
近年, 1 つの LLM を単一計画や意思決定エージェントとして利用する手法の開発により, 複雑な問題解決や世界シミュレーションにおいて, LLM ベースのマルチエージェントシステムは大きな進歩を遂げている。
論文 参考訳(メタデータ) (2024-01-21T23:36:14Z) - Exploring the Reasoning Abilities of Multimodal Large Language Models
(MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning [44.12214030785711]
マルチモーダル大言語モデル(MLLM)のフロンティアを分類・記述し、既存のマルチモーダル推論の評価プロトコルについて概観する。
本稿では,MLLMの推論集約型タスクへの適用動向を紹介するとともに,現在の実践と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-01-10T15:29:21Z) - A Survey on Multimodal Large Language Models for Autonomous Driving [31.614730391949657]
大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-11-21T03:32:01Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language
Models [75.85429963948769]
最初の総合的MLLM評価ベンチマークMMEを示す。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
総計30個のMLLMをMMEで総合的に評価した。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Selective Survey: Most Efficient Models and Solvers for Integrative
Multimodal Transport [0.0]
主な目的は、マルチモーダル輸送研究の分野における既存の研究、方法および情報の受益的な選択を探索することです。
選択的な調査は、コスト、時間、ネットワークトポロジーの観点から、マルチモーダルトランスポート設計と最適化をカバーしている。
理論と実世界の応用のギャップは、グローバルなマルチモーダル輸送システムの最適化のためにさらに解決すべきである。
論文 参考訳(メタデータ) (2021-03-16T08:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。