論文の概要: Real-Time Manipulation Action Recognition with a Factorized Graph Sequence Encoder
- arxiv url: http://arxiv.org/abs/2503.12034v1
- Date: Sat, 15 Mar 2025 07:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:13.026957
- Title: Real-Time Manipulation Action Recognition with a Factorized Graph Sequence Encoder
- Title(参考訳): グラフ列エンコーダを用いたリアルタイムマニピュレーション動作認識
- Authors: Enes Erdogan, Eren Erdal Aksoy, Sanem Sariel,
- Abstract要約: 本稿では、リアルタイムに実行し、時間次元を効果的にスケールする新しいファクトリズグラフシーケンスネットワークを提案する。
グラフレベルの埋め込みをより集中的に抽出するための単純なプール操作であるハンドプール操作も導入する。
F1-macroスコアは14.3%,5.6%向上した。
- 参考スコア(独自算出の注目度): 0.6437284704257459
- License:
- Abstract: Recognition of human manipulation actions in real-time is essential for safe and effective human-robot interaction and collaboration. The challenge lies in developing a model that is both lightweight enough for real-time execution and capable of generalization. While some existing methods in the literature can run in real-time, they struggle with temporal scalability, i.e., they fail to adapt to long-duration manipulations effectively. To address this, leveraging the generalizable scene graph representations, we propose a new Factorized Graph Sequence Encoder network that not only runs in real-time but also scales effectively in the temporal dimension, thanks to its factorized encoder architecture. Additionally, we introduce Hand Pooling operation, a simple pooling operation for more focused extraction of the graph-level embeddings. Our model outperforms the previous state-of-the-art real-time approach, achieving a 14.3\% and 5.6\% improvement in F1-macro score on the KIT Bimanual Action (Bimacs) Dataset and Collaborative Action (CoAx) Dataset, respectively. Moreover, we conduct an extensive ablation study to validate our network design choices. Finally, we compare our model with its architecturally similar RGB-based model on the Bimacs dataset and show the limitations of this model in contrast to ours on such an object-centric manipulation dataset.
- Abstract(参考訳): 人間の操作行動の認識は、安全かつ効果的な人間とロボットの相互作用と協調に不可欠である。
課題は、リアルタイム実行に十分な軽量で、一般化が可能なモデルを開発することである。
文学におけるいくつかの既存の手法はリアルタイムで実行できるが、時間的スケーラビリティに苦しむ。
一般化可能なシーングラフ表現を活用するために,実時間で動作するだけでなく,その因子化エンコーダアーキテクチャにより時間次元を効果的にスケールする新しいFactized Graph Sequence Encoderネットワークを提案する。
さらに,グラフレベルの埋め込みをより集中的に抽出するための簡単なプール操作であるハンドプール操作を導入する。
我々のモデルは,従来の最先端のリアルタイムアプローチよりも優れており,KITバイマガルアクション(Bimacs)データセットとコラボレーティブアクション(CoAx)データセットにおいて,F1マクロスコアの14.3\%と5.6\%の改善を実現している。
さらに、ネットワーク設計の選択肢を検証するために、広範囲にわたるアブレーション研究を行っている。
最後に、アーキテクチャ的に類似したRGBベースモデルであるBimacsデータセットと比較し、このようなオブジェクト中心の操作データセットでは、我々のモデルとは対照的に、このモデルの限界を示す。
関連論文リスト
- Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation [4.02235104503587]
本稿では,3次元表現から得られる情報を利用して局所的な特徴を巧みにとらえる。
GPUベースのKDTreeは、素早いビルド、クエリ、プロジェクションの強化を、簡単な操作で実現している。
我々は,本モデルの縮小バージョンが,本格的な最先端モデルに対して強い競争力を示すだけでなく,リアルタイムに動作することを示す。
論文 参考訳(メタデータ) (2024-10-14T13:49:05Z) - Coherent Temporal Synthesis for Incremental Action Segmentation [42.46228728930902]
本稿では、インクリメンタルなアクションセグメンテーションのためのビデオデータ再生手法を初めて検討する。
本稿では,個々のフレームを格納する代わりに生成モデルを用いて行動を表現するテンポラリ・コヒーレント・アクション・モデルを提案する。
Breakfastデータセットの10タスクのインクリメンタルセットアップでは,ベースラインと比較して最大22%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-03-10T06:07:06Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - PoseRAC: Pose Saliency Transformer for Repetitive Action Counting [56.34379680390869]
冗長なフレームではなく,2つのサレントポーズのみを用いて,各アクションを効率よく表現するPose Saliency Representationを導入する。
また,この表現に基づいて,最先端のパフォーマンスを実現するPoseRACについても紹介する。
当社の軽量モデルは非常に効率的で、GPUでのトレーニングに20分しか必要とせず、従来の方法に比べて10倍近い速さで推論します。
論文 参考訳(メタデータ) (2023-03-15T08:51:17Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Causal Incremental Graph Convolution for Recommender System Retraining [89.25922726558875]
実世界のレコメンデーションシステムは、新しいデータを維持するために定期的に再トレーニングする必要がある。
本研究では,GCNに基づくレコメンデータモデルを用いて,グラフ畳み込みネットワーク(GCN)を効率的に再学習する方法を検討する。
論文 参考訳(メタデータ) (2021-08-16T04:20:09Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。