論文の概要: RailVQA: A Benchmark and Framework for Efficient Interpretable Visual Cognition in Automatic Train Operation
- arxiv url: http://arxiv.org/abs/2603.27112v1
- Date: Sat, 28 Mar 2026 03:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.78804
- Title: RailVQA: A Benchmark and Framework for Efficient Interpretable Visual Cognition in Automatic Train Operation
- Title(参考訳): RailVQA: 自動列車運転における効率的な視覚認識のためのベンチマークとフレームワーク
- Authors: Sen Zhang, Runmei Li, Zhichao Zheng, Yuhe Zhang, Jiani Li, Kailun Zhang, Tao Zhang, Wenjun Wu, Qunbo Wang,
- Abstract要約: 自動列車運行(ATO)におけるタクシービュー視覚認知のための最初のVQAベンチマークであるRailVQA-benchを紹介する。
小型モデルと大規模モデル認識を組み合わせた協調型大規模モデルフレームワークであるRailVQA-CoMを提案する。
実験により、提案手法は性能を大幅に向上し、解釈可能性を高め、推論遅延を低減し、ドメイン間の一般化を強化することが示された。
- 参考スコア(独自算出の注目度): 11.03879484190242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Train Operation (ATO) relies on low-latency, reliable cab-view visual perception and decision-oriented inference to ensure safe operation in complex and dynamic railway environments. However, existing approaches focus primarily on basic perception and often generalize poorly to rare yet safety-critical corner cases. They also lack the high-level reasoning and planning capabilities required for operational decision-making. Although recent Large Multi-modal Models (LMMs) show strong generalization and cognitive capabilities, their use in safety-critical ATO is hindered by high computational cost and hallucination risk. Meanwhile, reliable domain-specific benchmarks for systematically evaluating cognitive capabilities are still lacking. To address these gaps, we introduce RailVQA-bench, the first VQA benchmark for cab-view visual cognition in ATO, comprising 20,000 single-frame and 1,168 video based QA pairs to evaluate cognitive generalization and interpretability in both static and dynamic scenarios. Furthermore, we propose RailVQA-CoM, a collaborative large-small model framework that combines small-model efficiency with large-model cognition via a transparent three-module architecture and adaptive temporal sampling, improving perceptual generalization and enabling efficient reasoning and planning. Experiments demonstrate that the proposed approach substantially improves performance, enhances interpretability, reduces inference latency, and strengthens cross-domain generalization, while enabling plug-and-play deployment in autonomous driving systems. Code and datasets will be available at https://github.com/Cybereye-bjtu/RailVQA.
- Abstract(参考訳): オートマチック・トレイン・オペレーション(ATO)は、複雑でダイナミックな鉄道環境において安全な運転を確保するために、低レイテンシで信頼性の高いタクシービューの視覚認識と意思決定指向の推論に依存している。
しかし、既存のアプローチは主に基本的な認識に焦点が当てられており、しばしば稀に安全上重要なコーナーケースへの一般化が不十分である。
また、運用上の意思決定に必要な高レベルの推論と計画能力も欠如している。
近年のLarge Multi-modal Models (LMM) は、強力な一般化と認知能力を示すが、安全性クリティカルなATOにおけるそれらの使用は、高い計算コストと幻覚リスクによって妨げられている。
一方、認知能力を体系的に評価するための信頼性の高いドメイン固有ベンチマークは、まだ不足している。
これらのギャップに対処するために、我々は、ATOにおけるタクシービュー視覚認知のための最初のVQAベンチマークであるRailVQA-benchを紹介し、静的シナリオと動的シナリオの両方において認知一般化と解釈可能性を評価するために、2万のシングルフレームと1,168のビデオベースQAペアからなる。
さらに,LilVQA-CoMを提案する。これは,透明な3モジュールアーキテクチャと適応時間サンプリングにより,小型モデル効率と大モデル認識を組み合わせ,知覚の一般化を改善し,効率的な推論と計画を可能にする,協調的な大規模モデルフレームワークである。
実験により、提案手法は性能を大幅に向上し、解釈可能性を高め、推論遅延を低減し、クロスドメインの一般化を強化し、自律運転システムにおけるプラグ・アンド・プレイの展開を可能にした。
コードとデータセットはhttps://github.com/Cybereye-bjtu/RailVQA.comで入手できる。
関連論文リスト
- UAV traffic scene understanding: A regulation embedded multi-modal network and a unified benchmark [22.241798167957214]
無人航空機(UAV)プラットフォームからの交通状況の理解は、インテリジェント輸送システムにとって不可欠である。
既存の手法は、光学画像に大きく依存しているため、現実世界の監視において重大な課題に直面している。
本稿では,UAVトラフィックシーン理解のための新しいマルチモーダルトラフィック認知ネットワーク(MTCNet)を提案する。
論文 参考訳(メタデータ) (2026-03-11T12:53:38Z) - CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems [29.385460126069386]
我々は、キュレートされたデータセットと認知駆動型質問応答アノテーションを統合した新しいベンチマーク、CogRailを紹介した。
このベンチマークに基づいて、我々は最先端のビジュアル言語モデルの体系的な評価を行う。
本稿では,3つの中核的タスク,位置知覚,移動予測,脅威分析を統合したファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T16:36:26Z) - COVLM-RL: Critical Object-Oriented Reasoning for Autonomous Driving Using VLM-Guided Reinforcement Learning [55.83415345423854]
批判的オブジェクト指向(CO)推論と強化学習(RL)を統合した新しいエンドツーエンド駆動フレームワークCOVLM-RLを提案する。
CARLAシミュレータで行った実験により、COVLM-RLはトレーニング運転環境における成功率を30%向上することが示された。
論文 参考訳(メタデータ) (2025-12-10T06:18:16Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - RAC3: Retrieval-Augmented Corner Case Comprehension for Autonomous Driving with Vision-Language Models [9.304973961799359]
視覚言語モデル(VLM)はシナリオ理解の促進に重要な役割を果たしている。
幻覚や現実世界の接地不足といった課題に直面している。
本研究では, コーナーケース理解におけるVLMの性能向上を目的としたRAC3を提案する。
論文 参考訳(メタデータ) (2024-12-15T04:51:30Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。