論文の概要: TRIP-Evaluate: An Open Multimodal Benchmark for Evaluating Large Models in Transportation
- arxiv url: http://arxiv.org/abs/2605.00907v1
- Date: Wed, 29 Apr 2026 04:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.472126
- Title: TRIP-Evaluate: An Open Multimodal Benchmark for Evaluating Large Models in Transportation
- Title(参考訳): TRIP評価:大規模交通モデル評価のためのオープンマルチモーダルベンチマーク
- Authors: Han Gong, Zhen Zhou, Yunyang Shi, Yan Tan, Jinbiao Huo, Qi Hong, Zhiyuan Liu,
- Abstract要約: 交通機関における大規模モデルのオープンなマルチモーダルベンチマークであるTRIP-Evaluateを提案する。
このベンチマークでは、車両、交通管理、旅行者、計画設計機能をカバーするロールタスク知識分類を使用して837の項目をまとめている。
多様なモデルのパネルでは、テキストベースのパフォーマンスは改善されているが、多段階エンジニアリング計算、ルール制約推論、マルチモーダルシーン理解、ポイントクラウド理解に重大な弱点が残っている。
- 参考スコア(独自算出の注目度): 16.24388752700607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and multimodal large models (MLLMs) are increasingly used for transportation tasks such as regulation question answering, traffic management support, engineering review, and autonomous-driving scene reasoning. Yet transportation workflows are rule-intensive, computation-intensive, safety-critical, and inherently multimodal. Existing general benchmarks provide limited evidence of whether a model can apply regulations correctly, perform verifiable engineering calculations, or interpret traffic scenes reliably, while the small number of public transportation benchmarks remain narrow in scope and rarely support fine-grained diagnosis across text, images, and point-cloud data. To address this gap, we present TRIP-Evaluate, an open multimodal benchmark for large models in transportation. The benchmark organizes 837 items using a role-task-knowledge taxonomy that covers vehicle, traffic-management, traveler, and planning-and-design functions. Each item is annotated with capability, modality, and difficulty labels, enabling diagnosis from overall accuracy down to specific failure modes. The current release includes 596 text items, 198 image items, and 43 point-cloud items. TRIP-Evaluate also standardizes item construction, quality control, prompting, decoding, and scoring to improve cross-model comparability. Results on a diverse panel of models show that text-based performance is improving, but substantial weaknesses remain in multi-step engineering calculation, rule-constrained reasoning, multimodal scene understanding, and point-cloud understanding. Overall, TRIP-Evaluate provides a reproducible, diagnosable, and engineering-aligned evaluation baseline for model selection, regression testing, and safer deployment in transportation applications.
- Abstract(参考訳): 大規模言語モデル (LLMs) やマルチモーダル大規模モデル (MLLMs) は、規制質問応答、交通管理支援、エンジニアリングレビュー、自動運転シーン推論などの交通業務にますます利用されている。
しかし、輸送ワークフローはルール集約、計算集約、安全性クリティカル、本質的にマルチモーダルである。
既存の一般的なベンチマークは、モデルが規則を正しく適用し、検証可能なエンジニアリング計算を実行し、トラフィックシーンを確実に解釈できるかどうかの限られた証拠を提供する一方、少数の公共交通機関のベンチマークはスコープが狭く、テキスト、画像、ポイントクラウドデータ間のきめ細かい診断をサポートすることはめったにない。
このギャップに対処するために、交通機関における大規模モデルのためのオープンなマルチモーダルベンチマークであるTRIP-Evaluateを提案する。
このベンチマークでは、車両、交通管理、旅行者、計画設計機能をカバーするロールタスク知識分類を使用して837の項目をまとめている。
各項目には、機能、モダリティ、難易度ラベルがアノテートされ、全体的な精度から特定の障害モードまでを診断することができる。
現在のリリースには596のテキストアイテム、198のイメージアイテム、43のポイントクラウドアイテムが含まれている。
TRIP-Evaluateはアイテムの構成、品質管理、プロンプト、デコード、スコアリングを標準化し、クロスモデルの互換性を向上させる。
多様なモデルのパネルでは、テキストベースのパフォーマンスは改善されているが、多段階エンジニアリング計算、ルール制約推論、マルチモーダルシーン理解、ポイントクラウド理解に重大な弱点が残っている。
TRIP-Evaluateは、モデル選択、回帰テスト、より安全な輸送アプリケーション配備のための再現可能、診断可能、およびエンジニアリングに適合した評価ベースラインを提供する。
関連論文リスト
- FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining [49.78591189918702]
VisualToolChain-Bench (VTC-Bench)を導入し,マルチモーダル大言語モデル(MLLM)におけるツール使用の習熟度を評価する。
リアルなコンピュータビジョンパイプラインに合わせるために、我々のフレームワークは32種類のOpenCVベースの視覚操作を備えている。
正確な評価のために、9カテゴリの認知階層にまたがる680のキュレートされた問題を提示する。
論文 参考訳(メタデータ) (2026-03-16T09:31:44Z) - Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory [22.63245796446805]
マルチモーダル言語モデルのベンチマークは、クロスモーダル統合の能力を測定する必要がある。
現在のベンチマークはショートカットの質問で満たされており、単一のモダリティだけで解決できる。
従来のIRTを拡張したM3IRT(Multi-modal and multidimensional item response theory framework)を提案する。
M3IRTはMLLMのクロスモーダルな能力と各質問のクロスモーダルな難しさを推定し、コンパクトで高品質なサブセットを実現する。
論文 参考訳(メタデータ) (2026-03-03T06:51:08Z) - On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - Large Language Models for Pedestrian Safety: An Application to Predicting Driver Yielding Behavior at Unsignalized Intersections [5.913801021011149]
大型言語モデル(LLM)は異種交通データからパターンを抽出するのに適しており、ドライバーと歩行者の相互作用の正確なモデリングを可能にする。
本稿では,GPT-4oが常に高い精度とリコールを達成するのに対して,Deepseek-V3は高精度であることを示す。
論文 参考訳(メタデータ) (2025-09-24T00:25:19Z) - Towards Adaptive ML Benchmarks: Web-Agent-Driven Construction, Domain Expansion, and Metric Optimization [8.356074728041202]
TAM Benchは、エンドツーエンドの機械学習タスクで大規模言語モデル(LLM)を評価するためのベンチマークである。
3つの重要なイノベーションは、ブラウザの自動化とLLMベースのタスク獲得システムである。
150のキュレートされたAutoMLタスクに基づいて、異なるサイズのベンチマークサブセットを3つ構築する。
論文 参考訳(メタデータ) (2025-09-11T10:10:48Z) - Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding [5.830619388189558]
本稿では,総合的なハイウェイシーン理解のためのマルチエージェントフレームワークを提案する。
大規模汎用視覚言語モデル(VLM)は、タスク固有のチェーン・オブ・シークレットを生成するために、ドメイン知識と共にコンテキスト化される。
このフレームワークは、気象分類、舗装湿性評価、交通渋滞検出を同時に扱う。
論文 参考訳(メタデータ) (2025-08-24T03:55:24Z) - DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。
私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。
我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文 参考訳(メタデータ) (2025-03-13T17:59:01Z) - TransportationGames: Benchmarking Transportation Knowledge of
(Multimodal) Large Language Models [46.862519898969325]
TransportationGamesは(M)LLMを評価するための評価ベンチマークである。
各種(M)LLMの性能を記憶し,理解し,選択したタスクによる交通知識の適用において検証する。
論文 参考訳(メタデータ) (2024-01-09T10:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。