論文の概要: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
- arxiv url: http://arxiv.org/abs/2510.12385v1
- Date: Tue, 14 Oct 2025 11:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.287313
- Title: Learning to Recognize Correctly Completed Procedure Steps in Egocentric Assembly Videos through Spatio-Temporal Modeling
- Title(参考訳): 時空間モデリングによる自己中心型アセンブリビデオにおける正解手順の認識
- Authors: Tim J. Schoonbeek, Shao-Hsuan Hung, Dan Lehman, Hans Onvlee, Jacek Kustra, Peter H. N. de With, Fons van der Sommen,
- Abstract要約: 手順ステップ認識(PSR)のための2重ストリームフレームワークを提案する。
STORM-PSRはMECCANOとIndustRealのデータセットで評価される。
実際の組立工程の完了までの平均遅延を、それぞれ11.2%、26.1%削減する。
- 参考スコア(独自算出の注目度): 11.720299001244976
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Procedure step recognition (PSR) aims to identify all correctly completed steps and their sequential order in videos of procedural tasks. The existing state-of-the-art models rely solely on detecting assembly object states in individual video frames. By neglecting temporal features, model robustness and accuracy are limited, especially when objects are partially occluded. To overcome these limitations, we propose Spatio-Temporal Occlusion-Resilient Modeling for Procedure Step Recognition (STORM-PSR), a dual-stream framework for PSR that leverages both spatial and temporal features. The assembly state detection stream operates effectively with unobstructed views of the object, while the spatio-temporal stream captures both spatial and temporal features to recognize step completions even under partial occlusion. This stream includes a spatial encoder, pre-trained using a novel weakly supervised approach to capture meaningful spatial representations, and a transformer-based temporal encoder that learns how these spatial features relate over time. STORM-PSR is evaluated on the MECCANO and IndustReal datasets, reducing the average delay between actual and predicted assembly step completions by 11.2% and 26.1%, respectively, compared to prior methods. We demonstrate that this reduction in delay is driven by the spatio-temporal stream, which does not rely on unobstructed views of the object to infer completed steps. The code for STORM-PSR, along with the newly annotated MECCANO labels, is made publicly available at https://timschoonbeek.github.io/stormpsr .
- Abstract(参考訳): プロシージャステップ認識(PSR)は、プロシージャタスクのビデオにおいて、すべての正しく完了したステップとシーケンシャルな順序を識別することを目的としている。
既存の最先端モデルは、個々のビデオフレームにおけるアセンブリオブジェクトの状態を検出することのみに依存している。
時間的特徴を無視することにより、モデルロバスト性と精度が制限される。
これらの制約を克服するために、空間的特徴と時間的特徴の両方を活用するPSRのための二重ストリームフレームワークである、プロシージャステップ認識のための時空間オクルージョン・レジリエント・モデリング(STORM-PSR)を提案する。
アセンブリ状態検出ストリームは、オブジェクトの未閉塞ビューと効果的に動作し、時空間ストリームは、空間的特徴と時間的特徴の両方をキャプチャして、部分閉塞下でもステップ完了を認識する。
このストリームは、意味のある空間表現をキャプチャするための、新しい弱教師付きアプローチを用いて事前訓練された空間エンコーダと、これらの空間的特徴が時間とともにどのように関連しているかを学ぶトランスフォーマーベースの時間エンコーダを含む。
STORM-PSRはMECCANOとIndustRealのデータセットで評価され、実際の組立ステップの完了までの平均遅延を従来の方法と比較して11.2%、26.1%削減する。
この遅延の低減は、完了したステップを推測するために、オブジェクトの障害物のないビューに依存しない時空間ストリームによって引き起こされることを示す。
STORM-PSRのコードは、新たに注釈付けされたMECCANOラベルとともに、https://timschoonbeek.github.io/stormpsr.comで公開されている。
関連論文リスト
- UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling [53.199942923818206]
ポイントクラウドビデオは、光と視点の変化の影響を低減しつつ3Dの動きを捉え、微妙で連続した人間の行動を認識するのに非常に効果的である。
SSM(Selective State Space Models)は、線形複雑性を伴うシーケンスモデリングにおいて優れた性能を示す。
我々は,SSMの最新の進歩をクラウドビデオに向け,統一時空間モデル(UST-SSM)を提案する。
論文 参考訳(メタデータ) (2025-08-20T10:46:01Z) - CMR-Agent: Learning a Cross-Modal Agent for Iterative Image-to-Point Cloud Registration [2.400446821380503]
Image-to-point cloud registrationは、ポイントクラウドに対するRGBイメージの相対的なカメラポーズを決定することを目的としている。
学習に基づくほとんどの手法は、反復最適化のためのフィードバック機構を使わずに、特徴空間における2D-3D点対応を確立する。
本稿では,登録手順を反復マルコフ決定プロセスとして再構成し,カメラポーズの漸進的な調整を可能にすることを提案する。
論文 参考訳(メタデータ) (2024-08-05T11:40:59Z) - Revisiting the Encoding of Satellite Image Time Series [2.5874041837241304]
画像時系列(SITS)時間学習は、高時間分解能と不規則な取得時間のために複雑である。
我々は、クエリベースのトランスフォーマーデコーダを採用する最近のトレンドに触発されて、直接セット予測問題としてSITS処理の新たな視点を開発する。
衛星PASTISベンチマークデータセットを用いて,SOTA(State-of-the-art)の新たな結果を得た。
論文 参考訳(メタデータ) (2023-05-03T12:44:20Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - RCL: Recurrent Continuous Localization for Temporal Action Detection [33.05225035315206]
最先端の手法は主に密度の高いアンカー方式に依存しており、アンカーは離散化されたグリッドを持つ時間領域上で一様にサンプリングされる。
本稿では、完全連続的アンカー表現を学習するRCL(Recurrent Continuous Localization)を紹介する。
RCLはTHUMOS14では52.92% mAP@0.5、ActivtiyNet v1.3では37.65% mAPを達成する。
論文 参考訳(メタデータ) (2022-03-14T13:56:12Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。