論文の概要: CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems
- arxiv url: http://arxiv.org/abs/2601.09613v1
- Date: Wed, 14 Jan 2026 16:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.472082
- Title: CogRail: Benchmarking VLMs in Cognitive Intrusion Perception for Intelligent Railway Transportation Systems
- Title(参考訳): CogRail: インテリジェント鉄道輸送システムにおける認知侵入知覚におけるVLMのベンチマーク
- Authors: Yonglin Tian, Qiyao Zhang, Wei Xu, Yutong Wang, Yihao Wu, Xinyi Li, Xingyuan Dai, Hui Zhang, Zhiyong Cui, Baoqing Guo, Zujun Yu, Yisheng Lv,
- Abstract要約: 我々は、キュレートされたデータセットと認知駆動型質問応答アノテーションを統合した新しいベンチマーク、CogRailを紹介した。
このベンチマークに基づいて、我々は最先端のビジュアル言語モデルの体系的な評価を行う。
本稿では,3つの中核的タスク,位置知覚,移動予測,脅威分析を統合したファインチューニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.385460126069386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and early perception of potential intrusion targets is essential for ensuring the safety of railway transportation systems. However, most existing systems focus narrowly on object classification within fixed visual scopes and apply rule-based heuristics to determine intrusion status, often overlooking targets that pose latent intrusion risks. Anticipating such risks requires the cognition of spatial context and temporal dynamics for the object of interest (OOI), which presents challenges for conventional visual models. To facilitate deep intrusion perception, we introduce a novel benchmark, CogRail, which integrates curated open-source datasets with cognitively driven question-answer annotations to support spatio-temporal reasoning and prediction. Building upon this benchmark, we conduct a systematic evaluation of state-of-the-art visual-language models (VLMs) using multimodal prompts to identify their strengths and limitations in this domain. Furthermore, we fine-tune VLMs for better performance and propose a joint fine-tuning framework that integrates three core tasks, position perception, movement prediction, and threat analysis, facilitating effective adaptation of general-purpose foundation models into specialized models tailored for cognitive intrusion perception. Extensive experiments reveal that current large-scale multimodal models struggle with the complex spatial-temporal reasoning required by the cognitive intrusion perception task, underscoring the limitations of existing foundation models in this safety-critical domain. In contrast, our proposed joint fine-tuning framework significantly enhances model performance by enabling targeted adaptation to domain-specific reasoning demands, highlighting the advantages of structured multi-task learning in improving both accuracy and interpretability. Code will be available at https://github.com/Hub-Tian/CogRail.
- Abstract(参考訳): 鉄道輸送システムの安全性を確保するためには,侵入対象の正確な早期認識が不可欠である。
しかし、既存のシステムの多くは、固定された視覚範囲内のオブジェクトの分類に焦点を合わせ、規則に基づくヒューリスティックを適用して侵入状況を決定する。
このようなリスクを予測するには、従来の視覚モデルに対する課題を示す、関心の対象(OOI)に対する空間的文脈と時間的ダイナミクスの認識が必要である。
深層侵入の認識を容易にするため,提案したオープンソースデータセットと認知駆動型質問応答アノテーションを統合し,時空間推論と予測をサポートする新しいベンチマークであるCogRailを導入する。
このベンチマークに基づいて,マルチモーダルプロンプトを用いて最先端のビジュアル言語モデル(VLM)を体系的に評価し,その強みと限界を同定する。
さらに,3つのコアタスク,位置知覚,運動予測,脅威分析を統合し,汎用基盤モデルの認知侵入知覚に適した特殊モデルへの効果的な適応を容易にする,協調的微調整フレームワークを提案する。
大規模な実験により、現在の大規模マルチモーダルモデルは、認知的侵入知覚タスクが必要とする複雑な空間的時間的推論に苦しむことが明らかとなり、この安全クリティカル領域における既存の基礎モデルの限界が強調される。
これとは対照的に,本提案手法は,ドメイン固有の推論要求へのターゲット適応を可能にすることによって,モデル性能を著しく向上させ,構造化マルチタスク学習による精度と解釈性の向上のメリットを強調した。
コードはhttps://github.com/Hub-Tian/CogRail.comから入手できる。
関連論文リスト
- Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:58:01Z) - Attention Augmented GNN RNN-Attention Models for Advanced Cybersecurity Intrusion Detection [0.4369550829556577]
本稿では,グラフニューラルネットワーク(GNN),リカレントニューラルネットワーク(RNN),マルチヘッドアテンション機構を相乗的に組み合わせたハイブリッドディープラーニングアーキテクチャを提案する。
提案手法は,グラフ構造関係とネットワークイベントの逐次解析により,空間的依存関係を効果的に捉える。
統合されたアテンションメカニズムは、モデル解釈可能性の改善と機能選択の強化という2つの利点を提供し、サイバーセキュリティアナリストは、高インパクトなセキュリティイベントに計算リソースを集中させることができる。
論文 参考訳(メタデータ) (2025-10-29T03:47:02Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities [0.6445605125467574]
ファウンデーションモデルは自律運転認識に革命をもたらしており、狭いタスク固有のディープラーニングモデルから、広大な多様なデータセットでトレーニングされた多目的で汎用的なアーキテクチャへと、分野を移行している。
この調査では、これらのモデルが、一般化の限界、スケーラビリティ、分散シフトに対する堅牢性など、自律的知覚における重要な課題にどのように対処するかを検討する。
論文 参考訳(メタデータ) (2025-09-10T05:45:49Z) - Bayesian and Multi-Objective Decision Support for Real-Time Cyber-Physical Incident Mitigation [6.852472228194646]
本研究では,サイバー物理システムにおけるサイバーインシデントを軽減するためのリアルタイム適応型意思決定支援フレームワークを提案する。
重要なインフラにおけるこれらのシステムへの依存の高まりと、敵の戦術の進化に対応するために開発された。
論文 参考訳(メタデータ) (2025-08-31T09:47:38Z) - Rethinking Spatio-Temporal Anomaly Detection: A Vision for Causality-Driven Cybersecurity [22.491097360752903]
我々は,空間的分散インフラにおける異常検出の促進を目的とした因果学習の視点を提唱する。
我々は因果グラフプロファイリング、多視点融合、連続因果グラフ学習の3つの主要な方向を特定し定式化する。
我々の目的は、拡張性、適応性、説明性、空間的根拠を持つ異常検出システムに向けた新しい研究軌道を構築することである。
論文 参考訳(メタデータ) (2025-07-10T21:19:28Z) - Offline Model-Based Optimization: Comprehensive Review [61.91350077539443]
オフライン最適化は、オフラインデータセットのみを使用してブラックボックス機能の最適化を目標とする、科学とエンジニアリングの基本的な課題である。
モデルベース最適化の最近の進歩は、オフライン固有の代理モデルと生成モデルを開発するために、ディープニューラルネットワークの一般化能力を活用している。
科学的な発見を加速させる効果が増大しているにもかかわらず、この分野は包括的なレビューを欠いている。
論文 参考訳(メタデータ) (2025-03-21T16:35:02Z) - FACADE: A Framework for Adversarial Circuit Anomaly Detection and
Evaluation [9.025997629442896]
FACADEは、ディープニューラルネットワークにおける教師なしの機械的異常検出のために設計されている。
我々のアプローチは、モデルの堅牢性を改善し、スケーラブルなモデル監視を強化し、現実のデプロイメント環境で有望なアプリケーションを実証することを目指している。
論文 参考訳(メタデータ) (2023-07-20T04:00:37Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。