論文の概要: StairNet: Visual Recognition of Stairs for Human-Robot Locomotion
- arxiv url: http://arxiv.org/abs/2310.20666v1
- Date: Tue, 31 Oct 2023 17:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:07:10.301032
- Title: StairNet: Visual Recognition of Stairs for Human-Robot Locomotion
- Title(参考訳): StairNet:人間-ロボットロコモーションのためのステア認識
- Authors: Andrew Garrett Kurbis, Dmytro Kuzmenko, Bogdan Ivanyuk-Skulskiy, Alex
Mihailidis, Brokoslaw Laschowski
- Abstract要約: StairNetは、階段の視覚的感知と認識のための新しいディープラーニングモデルの開発を支援するイニシアチブである。
本稿では,515,000枚以上の手動ラベル付き画像を用いた大規模データセットの開発について概説する。
ロボット移動のための新しい視覚認識システムを開発・研究する上で,StairNetは有効なプラットフォームであることを示す。
- 参考スコア(独自算出の注目度): 2.3811618212533663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-robot walking with prosthetic legs and exoskeletons, especially over
complex terrains such as stairs, remains a significant challenge. Egocentric
vision has the unique potential to detect the walking environment prior to
physical interactions, which can improve transitions to and from stairs. This
motivated us to create the StairNet initiative to support the development of
new deep learning models for visual sensing and recognition of stairs, with an
emphasis on lightweight and efficient neural networks for onboard real-time
inference. In this study, we present an overview of the development of our
large-scale dataset with over 515,000 manually labeled images, as well as our
development of different deep learning models (e.g., 2D and 3D CNN, hybrid CNN
and LSTM, and ViT networks) and training methods (e.g., supervised learning
with temporal data and semi-supervised learning with unlabeled images) using
our new dataset. We consistently achieved high classification accuracy (i.e.,
up to 98.8%) with different designs, offering trade-offs between model accuracy
and size. When deployed on mobile devices with GPU and NPU accelerators, our
deep learning models achieved inference speeds up to 2.8 ms. We also deployed
our models on custom-designed CPU-powered smart glasses. However, limitations
in the embedded hardware yielded slower inference speeds of 1.5 seconds,
presenting a trade-off between human-centered design and performance. Overall,
we showed that StairNet can be an effective platform to develop and study new
visual perception systems for human-robot locomotion with applications in
exoskeleton and prosthetic leg control.
- Abstract(参考訳): 義足と外骨格を持つ人間ロボットは、特に階段のような複雑な地形を歩き回っている。
エゴセントリックビジョンは、物理的相互作用の前に歩行環境を検出するユニークな可能性を持ち、階段から階段への遷移を改善することができる。
これにより、私たちはStairNetイニシアチブを立ち上げ、リアルタイムで推論するための軽量で効率的なニューラルネットワークに重点を置いて、階段の視覚的センシングと認識のための新しいディープラーニングモデルの開発を支援しました。
本研究では,515,000以上の手動ラベル付き画像を用いた大規模データセットの開発の概要と,新たなデータセットを用いた異なるディープラーニングモデル(2D,3D CNN,ハイブリッドCNN,LSTM,ViTネットワークなど)とトレーニング手法(時間的データによる教師あり学習,ラベルなし画像による半教師あり学習など)の開発について概説する。
我々は常に高い分類精度(98.8%まで)を達成し、モデル精度とサイズの間のトレードオフを提供した。
gpuとnpuアクセラレータを使ってモバイルデバイスにデプロイすると、私たちのディープラーニングモデルは推論を2.8ミリ秒まで高速化しました。
しかし、組み込みハードウェアの制限により推論速度は1.5秒遅くなり、人間中心の設計と性能のトレードオフが生じた。
全体として、stairnetは、外骨格と義肢制御の応用により、人間-ロボットの歩行のための新しい視覚知覚システムを開発し、研究するための効果的なプラットフォームであることを示した。
関連論文リスト
- Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - StairNetV3: Depth-aware Stair Modeling using Deep Learning [6.145334325463317]
視覚に基づく階段認識は、自律的な移動ロボットが階段を登るという課題に対処するのに役立つ。
現在の単眼視法では、深度情報なしで階段を正確にモデル化することは困難である。
本稿では,単眼視のための深度対応階段モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-08-13T08:11:40Z) - Baby Physical Safety Monitoring in Smart Home Using Action Recognition
System [0.0]
本研究では,移動学習手法をConv2D LSTM層と組み合わせて,Kineeticsデータセット上の事前学習したI3Dモデルから特徴を抽出するフレームワークを提案する。
スマートベビールームにおける赤ちゃんの活動を認識し,予測するために,LSTM畳み込みとI3D(ConvLSTM-I3D)を用いたベンチマークデータセットと自動モデルを開発した。
論文 参考訳(メタデータ) (2022-10-22T19:00:14Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - A Review of Deep Learning Techniques for Markerless Human Motion on
Synthetic Datasets [0.0]
近年,人間の姿勢推定がコンピュータビジョンコミュニティで注目を集めている。
2次元画像のみに基づくアニメーションの骨格を予測できるモデルを提案する。
実装プロセスは、独自のデータセットにDeepLabCutを使用して、多くの必要なステップを実行する。
論文 参考訳(メタデータ) (2022-01-07T15:42:50Z) - Learning Perceptual Locomotion on Uneven Terrains using Sparse Visual
Observations [75.60524561611008]
この研究は、人中心の環境において、よく見られるバンプ、ランプ、階段の広い範囲にわたる知覚的移動を達成するために、スパースな視覚的観察の使用を活用することを目的としている。
まず、関心の均一な面を表すことのできる最小限の視覚入力を定式化し、このような外受容的・固有受容的データを統合した学習フレームワークを提案する。
本研究では, 平地を全方向歩行し, 障害物のある地形を前方移動させるタスクにおいて, 学習方針を検証し, 高い成功率を示す。
論文 参考訳(メタデータ) (2021-09-28T20:25:10Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。