論文の概要: Towards fairer public transit: Real-time tensor-based multimodal fare evasion and fraud detection
- arxiv url: http://arxiv.org/abs/2510.02165v1
- Date: Thu, 02 Oct 2025 16:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.203917
- Title: Towards fairer public transit: Real-time tensor-based multimodal fare evasion and fraud detection
- Title(参考訳): より公正な公共交通を目指して:リアルタイムテンソルベースマルチモーダル運賃回避と不正検出
- Authors: Peter Wauyo, Dalia Bwiza, Alain Murara, Edwin Mugume, Eric Umuhoza,
- Abstract要約: 本研究では,公共交通機関における不正・運賃回避を検知するマルチモーダルシステムを提案する。
提案手法では、ビデオ抽出にViViTモデル、オーディオ解析にAudio Spectrogram Transformer(AST)を用いる。
このシステムは、非モーダル相互作用とバイモーダル相互作用を明示的にモデル化するFusion Network (TFN)アーキテクチャを実装している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research introduces a multimodal system designed to detect fraud and fare evasion in public transportation by analyzing closed circuit television (CCTV) and audio data. The proposed solution uses the Vision Transformer for Video (ViViT) model for video feature extraction and the Audio Spectrogram Transformer (AST) for audio analysis. The system implements a Tensor Fusion Network (TFN) architecture that explicitly models unimodal and bimodal interactions through a 2-fold Cartesian product. This advanced fusion technique captures complex cross-modal dynamics between visual behaviors (e.g., tailgating,unauthorized access) and audio cues (e.g., fare transaction sounds). The system was trained and tested on a custom dataset, achieving an accuracy of 89.5%, precision of 87.2%, and recall of 84.0% in detecting fraudulent activities, significantly outperforming early fusion baselines and exceeding the 75% recall rates typically reported in state-of-the-art transportation fraud detection systems. Our ablation studies demonstrate that the tensor fusion approach provides a 7.0% improvement in the F1 score and an 8.8% boost in recall compared to traditional concatenation methods. The solution supports real-time detection, enabling public transport operators to reduce revenue loss, improve passenger safety, and ensure operational compliance.
- Abstract(参考訳): 本研究では,閉回路テレビ(CCTV)と音声データを解析することにより,公共交通機関の不正・運賃回避を検出するマルチモーダルシステムを提案する。
提案手法では,映像特徴抽出にViViTモデル,音声解析にAudio Spectrogram Transformer(AST)を用いた。
このシステムはテンソル・フュージョン・ネットワーク (TFN) アーキテクチャを実装しており、2倍のカルテシアン積を通した非モーダルおよびバイモーダル相互作用を明示的にモデル化している。
この高度な融合技術は、視覚行動(例えば、調整、未許可アクセス)とオーディオキュー(例えば、運賃取引音)の間の複雑な相互モーダルダイナミクスをキャプチャする。
このシステムはカスタムデータセットで訓練され、精度89.5%、精度87.2%、リコール84.0%の不正行為の検出を達成し、初期の核融合ベースラインを著しく上回り、現在最先端の交通不正検知システムで報告されている75%のリコール率を上回った。
我々のアブレーション研究では、テンソル融合法は従来の結合法と比較してF1スコアが7.0%改善し、リコールが8.8%向上することを示した。
このソリューションはリアルタイム検出をサポートし、公共交通機関のオペレーターが収益の損失を減らし、乗客の安全を改善し、運用上のコンプライアンスを確保する。
関連論文リスト
- Contrastive Learning-Driven Traffic Sign Perception: Multi-Modal Fusion of Text and Vision [2.0720154517628417]
オープン語彙検出とクロスモーダル学習を組み合わせた新しいフレームワークを提案する。
交通信号検出のために,NanoVerse YOLOモデルは視覚言語パス集約ネットワーク(RepVL-PAN)とSPD-Convモジュールを統合している。
交通標識分類のための交通信号認識マルチモーダルコントラスト学習モデル(TSR-MCL)を設計した。
TT100Kデータセットでは,全クラス認識のためのロングテール検出タスクにおいて,最先端の78.4%mAPを実現する。
論文 参考訳(メタデータ) (2025-07-31T08:23:30Z) - Wavelet Scattering Transform and Fourier Representation for Offline Detection of Malicious Clients in Federated Learning [44.99833362998488]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散クライアント間で機械学習モデルのトレーニングを可能にする。
異常なクライアントや破損したクライアントの存在は、モデルパフォーマンスを著しく低下させる可能性がある。
我々は、トレーニング前に悪意のあるクライアントにラベル付けする検出アルゴリズムWAFFLEを提案する。
蒸留された公開データセットに基づいてトレーニングされた軽量検出器は、最小限の通信と計算オーバーヘッドでラベル付けを実行する。
論文 参考訳(メタデータ) (2025-06-11T12:48:00Z) - A Dynamic Transformer Network for Vehicle Detection [57.4144097001218]
車両検出のための動的トランスフォーマーネットワーク(DTNet)を提案する。
DTNetは動的畳み込みを利用してディープネットワークを誘導し、重量を動的に生成し、得られた検出器の適応性を高める。
画像アカウントにおける差の欠点を克服するため、変換変分畳み込みは、取得した車両検出構造情報を洗練するために、空間的位置情報に依存する。
論文 参考訳(メタデータ) (2025-06-03T11:29:35Z) - Floating Car Observers in Intelligent Transportation Systems: Detection Modeling and Temporal Insights [1.7205106391379021]
フローティングカーオブザーバ(FCO)は、オンボードセンサーを統合して、他の交通参加者を検出し、ローカライズすることで、従来のフローティングカーデータ(FCD)を拡張している。
我々は, 微視的交通シミュレーションにおけるFCO検出のための様々なモデリング手法について検討し, インテリジェントトランスポーテーションシステム(ITS)の応用の可能性を評価する。
論文 参考訳(メタデータ) (2025-04-29T19:38:13Z) - Audio-visual cross-modality knowledge transfer for machine learning-based in-situ monitoring in laser additive manufacturing [2.592307869002029]
本稿では, LAM in-situ モニタリングのための相互モダリティ知識伝達手法について紹介する。
3つのCMKT法が提案され、セマンティックアライメント、完全教師付きマッピング、半教師付きマッピングである。
LAMインサイト欠陥検出のケーススタディでは,CMKT法とマルチモーダル・オーディオ・ビジュアル・フュージョンを比較した。
論文 参考訳(メタデータ) (2024-08-09T19:06:38Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - DADFNet: Dual Attention and Dual Frequency-Guided Dehazing Network for
Video-Empowered Intelligent Transportation [79.18450119567315]
逆の気象条件は、ビデオベースの交通監視に深刻な課題をもたらす。
本稿では,リアルタイム視認性向上のための2つの注意と2つの周波数誘導型脱ハージングネットワーク(DADFNet)を提案する。
論文 参考訳(メタデータ) (2023-04-19T11:55:30Z) - TransFuser: Imitation with Transformer-Based Sensor Fusion for
Autonomous Driving [46.409930329699336]
本稿では,自己注意を用いた画像とLiDAR表現の統合機構であるTransFuserを提案する。
提案手法では,複数解像度のトランスフォーマーモジュールを用いて視線と鳥の視線の特徴マップを融合する。
我々は、CARLA都市運転シミュレータの公式リーダーボードと同様に、長いルートと密集した交通量を持つ挑戦的な新しいベンチマークにおいて、その効果を実験的に検証した。
論文 参考訳(メタデータ) (2022-05-31T17:57:19Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。