論文の概要: A Large-Scale Dataset for Benchmarking Elevator Button Segmentation and
Character Recognition
- arxiv url: http://arxiv.org/abs/2103.09030v1
- Date: Tue, 16 Mar 2021 12:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:22:19.795591
- Title: A Large-Scale Dataset for Benchmarking Elevator Button Segmentation and
Character Recognition
- Title(参考訳): エレベーターボタンのセグメンテーションと文字認識をベンチマークするための大規模データセット
- Authors: Jianbang Liu, Yuqi Fang, Delong Zhu, Nachuan Ma, Jin Pan, Max Q.-H.
Meng
- Abstract要約: 我々は,この作業において,最初の大規模公開公開エレベータパネルデータセットをリリースする。
35,100個のボタンラベルを持つ3,718枚のパネル画像が含まれています。
ボタンセグメンテーションと認識のためのディープラーニングベースの実装も、コミュニティの将来のメソッドをベンチマークするためにリリースされている。
- 参考スコア(独自算出の注目度): 22.886196641269574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activities are hugely restricted by COVID-19, recently. Robots that can
conduct inter-floor navigation attract much public attention, since they can
substitute human workers to conduct the service work. However, current robots
either depend on human assistance or elevator retrofitting, and fully
autonomous inter-floor navigation is still not available. As the very first
step of inter-floor navigation, elevator button segmentation and recognition
hold an important position. Therefore, we release the first large-scale
publicly available elevator panel dataset in this work, containing 3,718 panel
images with 35,100 button labels, to facilitate more powerful algorithms on
autonomous elevator operation. Together with the dataset, a number of deep
learning based implementations for button segmentation and recognition are also
released to benchmark future methods in the community. The dataset will be
available at \url{https://github.com/zhudelong/elevator_button_recognition
- Abstract(参考訳): 最近、人間の活動はCOVID-19によって非常に制限されています。
フロア間ナビゲーションを行うロボットは、人間の作業員に代えてサービス作業を行うことができるため、多くの一般の注目を集めている。
しかし、現在のロボットは人力支援かエレベーターの修理に依存しており、完全に自律的な床間ナビゲーションはまだ利用できない。
床間ナビゲーションの第1ステップとして、エレベーターボタンのセグメンテーションと認識が重要な位置を占める。
そこで本研究では,35,100個のボタンラベルを有する3,718枚のパネル画像を含む大規模公開エレベータパネルデータセットをリリースし,自律エレベータ操作におけるより強力なアルゴリズムを実現する。
データセットとともに、ボタンのセグメンテーションと認識のためのディープラーニングベースの実装もリリースされ、コミュニティの将来のメソッドをベンチマークする。
データセットは \url{https://github.com/zhudelong/elevator_button_recognition で利用可能になる。
関連論文リスト
- Octo: An Open-Source Generalist Robot Policy [88.14295917143188]
ここでは,Open X-Embodimentデータセットから800kトラジェクトリをトレーニングした,大規模なトランスフォーマーベースのポリシであるOctoを紹介する。
標準のGPUでは数時間以内に、新しいセンサー入力とアクションスペースを備えたロボットセットアップに効果的にカスタマイズできる。
また,アーキテクチャからトレーニングデータに至るまで,Octoモデルの設計決定の詳細な説明を行い,汎用ロボットモデルの構築に関する今後の研究を指導する。
論文 参考訳(メタデータ) (2024-05-20T17:57:01Z) - JRDB-PanoTrack: An Open-world Panoptic Segmentation and Tracking Robotic Dataset in Crowded Human Environments [33.85323884177833]
JRDB-PanoTrackは,ロボットシステムにおける環境理解のためのオープンワールド・パノプティクス・セグメンテーションとトラッキング・ベンチマークである。
JRDB-PanoTrackは,1)屋内および屋外の混雑シーンを含む各種データと,総合的な2Dおよび3D同期データモダリティを含む。
クローズドおよびオープンワールド認識ベンチマーク用のさまざまなオブジェクトクラス、評価のためのOSPAベースのメトリクス。
論文 参考訳(メタデータ) (2024-04-02T06:43:22Z) - PlaceNav: Topological Navigation through Place Recognition [1.9382079036818822]
そこで我々はPlaceNavを紹介し、ロボットに依存しない部分をナビゲーション固有の汎用コンピュータビジョンコンポーネントに分割する。
トポロジカルナビゲーションパイプラインのサブゴール選択に視覚的位置認識を利用する。
実験の結果,提案手法は室内で76%,屋外ナビゲーションでは23%,計算効率が向上した。
論文 参考訳(メタデータ) (2023-09-29T14:12:54Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation [16.36110033895749]
本稿では,合成RGBビデオ,セマンティックラベル,深度情報,および運動情報を含むデータセットHabitatDynを提案する。
HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。
論文 参考訳(メタデータ) (2023-04-21T09:57:35Z) - AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning [63.628195002143734]
本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-02T21:24:19Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - Coupling Vision and Proprioception for Navigation of Legged Robots [65.59559699815512]
我々は視覚と受容の相補的な強みを利用して、脚のあるロボットでポイントゴールナビゲーションを実現する。
車輪付きロボット(LoCoBot)のベースラインよりも優れた性能を示す。
また,センサーと計算能力を備えた四足歩行ロボットに,我々のシステムを実環境に展開することも示す。
論文 参考訳(メタデータ) (2021-12-03T18:59:59Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z) - Gesture Recognition for Initiating Human-to-Robot Handovers [2.1614262520734595]
人間がハンドオーバを開始する意図を認識させることが重要であり、ハンドオーバが意図されていなければ、ロボットは人間からオブジェクトを奪おうとしない。
ハンドオーバジェスチャー認識は単一のRGB画像のバイナリ分類問題として機能する。
以上の結果から,ハンドオーバ動作は90%以上の精度で正しく識別できることがわかった。
論文 参考訳(メタデータ) (2020-07-20T08:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。