論文の概要: Shared Representation for 3D Pose Estimation, Action Classification, and Progress Prediction from Tactile Signals
- arxiv url: http://arxiv.org/abs/2603.25906v1
- Date: Thu, 26 Mar 2026 20:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.277256
- Title: Shared Representation for 3D Pose Estimation, Action Classification, and Progress Prediction from Tactile Signals
- Title(参考訳): 触覚信号からの3次元姿勢推定・行動分類・進行予測のための共有表現
- Authors: Isaac Han, Seoyoung Lee, Sangyeon Park, Ecehan Akan, Yiyue Luo, Joseph DelPreto, Kyung-Joong Kim,
- Abstract要約: 人間のポーズの推定、行動の分類、移動の進行を予測することは、人間とロボットの相互作用に不可欠である。
従来の触覚ベースのアプローチはそれぞれのタスクを別々に処理し、最適以下のパフォーマンスをもたらす。
本稿では,3つの異なる予測タスクを同時に処理するために,共用表現を学習するSCOTTI(Shared Convolutional Transformer for Tactile Inference)を提案する。
- 参考スコア(独自算出の注目度): 11.658733717166205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating human pose, classifying actions, and predicting movement progress are essential for human-robot interaction. While vision-based methods suffer from occlusion and privacy concerns in realistic environments, tactile sensing avoids these issues. However, prior tactile-based approaches handle each task separately, leading to suboptimal performance. In this study, we propose a Shared COnvolutional Transformer for Tactile Inference (SCOTTI) that learns a shared representation to simultaneously address three separate prediction tasks: 3D human pose estimation, action class categorization, and action completion progress estimation. To the best of our knowledge, this is the first work to explore action progress prediction using foot tactile signals from custom wireless insole sensors. This unified approach leverages the mutual benefits of multi-task learning, enabling the model to achieve improved performance across all three tasks compared to learning them independently. Experimental results demonstrate that SCOTTI outperforms existing approaches across all three tasks. Additionally, we introduce a novel dataset collected from 15 participants performing various activities and exercises, with 7 hours of total duration, across eight different activities.
- Abstract(参考訳): 人間のポーズの推定、行動の分類、移動の進行を予測することは、人間とロボットの相互作用に不可欠である。
視覚に基づく手法は現実的な環境において隠蔽やプライバシーの懸念に悩まされるが、触覚はこれらの問題を回避している。
しかし、事前の触覚ベースのアプローチはそれぞれのタスクを個別に処理し、最適以下のパフォーマンスをもたらす。
本研究では、3次元ポーズ推定、アクションクラス分類、動作完了進捗推定という3つの異なる予測課題に同時に対処するために、共有表現を学習する、触覚推論のための共有共進化変換器(SCOTTI)を提案する。
我々の知る限りでは、これはカスタムワイヤレスインソールセンサーによる足の触覚信号を用いた行動進行予測の最初の研究である。
この統一されたアプローチは、マルチタスク学習の相互利益を活用し、モデルを独立して学習するよりも3つのタスクすべてで改善されたパフォーマンスを達成することができる。
SCOTTIは既存の3つのタスクのアプローチよりも優れていることを示す実験結果が得られた。
さらに, 様々な活動や運動を行う15人の参加者から収集した新しいデータセットを, 8つの活動の合計7時間にわたって導入した。
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Self-supervised New Activity Detection in Sensor-based Smart Environments [2.5486448837945765]
我々は、新しいアクティビティ検出のための多様なデータ拡張を伴うコントラスト学習を利用するモデルであるCLANを紹介する。
CLANは時間領域と周波数領域の両方を組み込んでおり、多面的識別表現の学習を可能にしている。
CLANは、最高のパフォーマンスのベースラインモデルと比較して、AUROCの9.24%の改善を実現している。
論文 参考訳(メタデータ) (2024-01-17T03:57:36Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Pedestrian Crossing Action Recognition and Trajectory Prediction with 3D
Human Keypoints [25.550524178542833]
歩行者の横断行動認識と軌道予測のための新しいマルチタスク学習フレームワークを提案する。
生のセンサデータから抽出した3D人間のキーポイントを用いて、人間のポーズや活動に関する豊富な情報をキャプチャする。
提案手法は,幅広い評価指標を用いて最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T18:27:48Z) - Self-Supervised Human Activity Recognition with Localized Time-Frequency
Contrastive Representation Learning [16.457778420360537]
スマートフォン加速度計データを用いた人間行動認識のための自己教師付き学習ソリューションを提案する。
加速度計信号から強い表現を学習し,クラスラベルへの依存度を低減させるモデルを開発した。
提案手法の性能をMotionSense, HAPT, HHARの3つのデータセットで評価した。
論文 参考訳(メタデータ) (2022-08-26T22:47:18Z) - Improving Human Motion Prediction Through Continual Learning [2.720960618356385]
人間の動作予測は、より緊密な人間とロボットのコラボレーションを可能にするために不可欠な要素である。
人間の運動の変動は、人間のサイズの違いによる骨格レベルと、個々の動きの慣用性による運動レベルの両方で複合される。
本稿では、エンドツーエンドのトレーニングを可能にすると同時に、微調整の柔軟性も備えたモジュール型シーケンス学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-01T15:34:41Z) - Learning to Disambiguate Strongly Interacting Hands via Probabilistic
Per-pixel Part Segmentation [84.28064034301445]
自己相似性と、それぞれの手にピクセル観察を割り当てるあいまいさは、最終的な3Dポーズエラーの大きな原因である。
1つの単眼画像から2つの手の3次元ポーズを推定する新しい手法であるDIGITを提案する。
提案手法は,InterHand2.6Mデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-07-01T13:28:02Z) - Self-supervised Human Activity Recognition by Learning to Predict
Cross-Dimensional Motion [16.457778420360537]
スマートフォン加速度計データを用いた人間行動認識のための自己教師型学習法を提案する。
まず、ラベルなし入力信号の表現は、深層畳み込みニューラルネットワークを訓練して加速度計値のセグメントを予測することによって学習される。
このタスクでは、凍結ネットワークの端に多数の完全に接続されたレイヤを追加し、ラベル付き加速度センサ信号で付加されたレイヤをトレーニングし、人間の活動の分類を学ぶ。
論文 参考訳(メタデータ) (2020-10-21T02:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。