Fugu-MT 論文翻訳(概要): iPay: Integrated Payment Action Recognition via Multimodal Networks and Adaptive Spatial Prior Learning

論文の概要: iPay: Integrated Payment Action Recognition via Multimodal Networks and Adaptive Spatial Prior Learning

arxiv url: http://arxiv.org/abs/2605.10732v1
Date: Mon, 11 May 2026 15:37:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.947187
Title: iPay: Integrated Payment Action Recognition via Multimodal Networks and Adaptive Spatial Prior Learning
Title（参考訳）: iPay:マルチモーダルネットワークによる支払い行動認識と適応型空間優先学習
Authors: Kaicong Huang, Weiheng Oh, Thomas Guggisberg, Ruimin Ke,
Abstract要約: iPayは、オンボード交通監視システムのための支払いアクション認識フレームワークである。 iPayは従来の手法より優れ,83.45%の認識精度と競合計算効率を実現している。また、現地の交通機関と協力して55時間以上の実物監視映像を収集し、500件以上の支払いクリップを生み出しました。
参考スコア（独自算出の注目度）: 1.5119440099674915
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated transit payment analysis is vital for scalable fare auditing and passenger analytics, yet practice still relies on limited manual inspection. Prior vision- and skeleton-based methods remain brittle under noisy onboard surveillance and often depend on poorly generalizable handcrafted features. Building on the success of graph convolutional networks in human action recognition, we observe that skeleton features excel at modeling global spatiotemporal dependencies but tend to underemphasize the subtle local relative motions that distinguish payment actions. In contrast, RGB features preserve fine-grained spatial details yet often lack reliable temporal continuity in surveillance footage. To bridge both system-level deployment needs and model-level design challenges, we present iPay, an integrated payment action recognition framework for onboard transit surveillance system. iPay adopts a multimodal mixture-of-experts architecture with four tightly coupled streams: (1) an RGB expert stream emphasizing local evidence via region-focused computation; (2) a skeleton expert stream modeling articulated motion with a graph convolutional backbone; (3) a dual-attention fusion stream enabling skeleton-to-RGB temporal transfer and RGB-to-skeleton spatial enhancement; and (4) a prior-driven Spatial Difference Discriminator (SDD) that explicitly models hand-to-anchor relative motion to improve task-specific discriminability. We also collaborate with local transit agencies to collect over 55 hours of real onboard surveillance footage, yielding 500+ payment clips. Experiments show that iPay outperforms prior methods and achieves 83.45\% recognition accuracy with competitive computational efficiency, making it suitable for edge deployment. Code is available at https://github.com/ccoopq/iPay.
Abstract（参考訳）: 自動決済分析は、運賃監査や乗客分析に欠かせないが、実際には手動検査に頼っている。従来の視覚と骨格に基づく手法は、騒音の強い監視下でも不安定であり、しばしば手工芸品に頼っている。人間の行動認識におけるグラフ畳み込みネットワークの成功に基づいて,グローバルな時空間依存をモデル化する上で,骨格の特徴が優れているが,支払い動作を区別する微妙な局所的相対運動を過小評価する傾向があることを観察した。対照的に、RGBの機能はきめ細かな空間的詳細を保存しているが、監視映像では信頼性のある時間的連続性を欠いていることが多い。システムレベルの展開ニーズとモデルレベルの設計課題の両面を橋渡しするために,車載交通監視システムのための統合型決済行動認識フレームワークiPayを提案する。 iPayは,(1)局所的な証拠を地域中心の計算で強調するRGBエキスパートストリーム,(2)グラフ畳み込みバックボーンで調音運動をモデル化するスケルトンエキスパートストリーム,(3)スケルトンからRGBの時間的移動とRGBからスケルトンへの空間的拡張を可能にするデュアルアテンション融合ストリーム,(4)ハンド・アンカー間の相対的動きを明示的にモデル化してタスク固有識別性を向上させるプリミネータ(SDD)の4つの密結合ストリームを備えたマルチモーダル・オブ・エキスパート・ミキシング・アーキテクチャを採用している。また、現地の交通機関と協力して55時間以上の実物監視映像を収集し、500件以上の支払いクリップを生み出しました。実験の結果、iPayは従来の手法より優れており、83.45\%の認識精度と競合する計算効率を達成し、エッジデプロイメントに適していることがわかった。コードはhttps://github.com/ccoopq/iPay.comで入手できる。

関連論文リスト

A Multi-Scale Graph Learning Framework with Temporal Consistency Constraints for Financial Fraud Detection in Transaction Networks under Non-Stationary Conditions [6.8063643637119275]
STC-MixHopは空間的多分解能伝搬と軽量時間整合性モデリングを組み合わせたグラフベースのフレームワークである。このフレームワークは,厳密な時間分割の下でPaySimデータセット上で評価する。その結果, STC-MixHopはグラフ手法間で競合し, 高い不均衡条件下で強いスクリーニング指向のリコールを実現することがわかった。
論文参考訳（メタデータ） (2026-03-15T20:30:02Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文参考訳（メタデータ） (2025-05-02T12:21:44Z)
Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文参考訳（メタデータ） (2025-03-17T21:13:48Z)
Spatial-Temporal Perception with Causal Inference for Naturalistic Driving Action Recognition [6.115044825582411]
自動車キャビン監視システムには, 自然な運転行動認識が不可欠である。これまでのアプローチでは、微妙な振る舞いの違いを観察する能力が限られていたため、実践的な実装に苦労してきた。本稿では,時間的情報と空間的関係を両立する空間的知覚アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-03-06T04:28:11Z)
Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文参考訳（メタデータ） (2023-04-27T12:16:44Z)
Decomposed Cross-modal Distillation for RGB-based Temporal Action Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-30T10:47:26Z)
Joint-bone Fusion Graph Convolutional Network for Semi-supervised Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文参考訳（メタデータ） (2022-02-08T16:03:15Z)
Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition [62.46544616232238]
従来の動作認識手法は、密結合した多時間表現によって有望な性能を実現している。本稿では,RGB-D に基づく動作認識において引き起こされた表現を分離し,再分離することを提案する。
論文参考訳（メタデータ） (2021-12-16T18:59:47Z)
Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文参考訳（メタデータ） (2020-08-19T13:13:01Z)
Learning Navigation Costs from Demonstration in Partially Observable Environments [24.457042947946025]
本稿では、未知の部分観測可能な環境における安全かつ効率的な自律ナビゲーションを実現するために、逆強化学習(IRL)に焦点を当てる。本研究では, 確率的占有エンコーダと, 占有特性に繰り返し依存するコストエンコーダの2つの部分からなるコスト関数表現を開発する。本モデルは,ロボットナビゲーションタスクにおけるベースラインIRLアルゴリズムの精度を上回り,トレーニングとテストタイム推論の効率を大幅に向上させる。
論文参考訳（メタデータ） (2020-02-26T17:15:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。