論文の概要: CARPE-ID: Continuously Adaptable Re-identification for Personalized
Robot Assistance
- arxiv url: http://arxiv.org/abs/2310.19413v2
- Date: Wed, 31 Jan 2024 14:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 17:27:07.571429
- Title: CARPE-ID: Continuously Adaptable Re-identification for Personalized
Robot Assistance
- Title(参考訳): CARPE-ID: 個人化ロボット支援のための連続適応型再識別
- Authors: Federico Rollo, Andrea Zunino, Nikolaos Tsagarakis, Enrico Mingo
Hoffman, Arash Ajoudani
- Abstract要約: 今日のHuman-Robot Interaction(HRI)のシナリオでは、ロボットが最も近い個人と協力する必要があると仮定する傾向が一般的である。
連続的な視覚適応技術に基づく人物識別モジュールを提案する。
実験室環境におけるビデオ記録と,移動ロボットによるHRIシナリオを用いて,このフレームワークを単体でテストする。
- 参考スコア(独自算出の注目度): 16.948256303861022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's Human-Robot Interaction (HRI) scenarios, a prevailing tendency
exists to assume that the robot shall cooperate with the closest individual or
that the scene involves merely a singular human actor. However, in realistic
scenarios, such as shop floor operations, such an assumption may not hold and
personalized target recognition by the robot in crowded environments is
required. To fulfil this requirement, in this work, we propose a person
re-identification module based on continual visual adaptation techniques that
ensure the robot's seamless cooperation with the appropriate individual even
subject to varying visual appearances or partial or complete occlusions. We
test the framework singularly using recorded videos in a laboratory environment
and an HRI scenario, i.e., a person-following task by a mobile robot. The
targets are asked to change their appearance during tracking and to disappear
from the camera field of view to test the challenging cases of occlusion and
outfit variations. We compare our framework with one of the state-of-the-art
Multi-Object Tracking (MOT) methods and the results show that the CARPE-ID can
accurately track each selected target throughout the experiments in all the
cases (except two limit cases). At the same time, the s-o-t-a MOT has a mean of
4 tracking errors for each video.
- Abstract(参考訳): 今日のHuman-Robot Interaction(HRI)のシナリオでは、ロボットが最も近い個人と協力するか、あるいはシーンがただの人間アクターを含んでいると仮定する傾向が一般的である。
しかし,店舗のフロア操作のような現実的なシナリオでは,そのような仮定は保持されず,混み合った環境でロボットがターゲット認識を行う必要がある。
この要件を満たすために,本研究では,ロボットが適切な個人とシームレスに協調し,視覚的な外観や部分的,あるいは完全な咬合を受けることを保証する,連続的な視覚適応技術に基づく人物再識別モジュールを提案する。
実験室で記録されたビデオとHRIシナリオ,すなわち移動ロボットによる人物追従タスクを用いて,このフレームワークを単体でテストする。
ターゲットは追跡中の外観を変え、カメラの視野から消えて、閉塞や服装のバリエーションの難しいケースをテストするように求められます。
提案手法を最先端マルチオブジェクトトラッキング (mot) 法と比較し, 全事例において, carpe-id が選択した各ターゲットを正確に追跡できることを示した。
同時に、s-o-t-a MOTはビデオ毎に4つのトラッキングエラーがある。
関連論文リスト
- OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation [35.97702591413093]
一つのRGB-Dビデオから操作計画を生成する方法であるOKAMIを紹介する。
OKAMIは、オープンワールドビジョンモデルを使用して、タスク関連オブジェクトを特定し、身体の動きと手ポーズを別々に再ターゲットする。
論文 参考訳(メタデータ) (2024-10-15T17:17:54Z) - CtRNet-X: Camera-to-Robot Pose Estimation in Real-world Conditions Using a Single Camera [18.971816395021488]
マーカーレスポーズ推定手法は、カメラとロボットのキャリブレーションに時間を要する物理的な設定を不要にしている。
部分的に見えるロボットマニピュレータでロボットのポーズを推定できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T16:22:43Z) - Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - Exploring 3D Human Pose Estimation and Forecasting from the Robot's Perspective: The HARPER Dataset [52.22758311559]
本研究では,ユーザとスポット間のダイアドインタラクションにおける3次元ポーズ推定と予測のための新しいデータセットであるHARPERを紹介する。
キーノーベルティは、ロボットの視点、すなわちロボットのセンサーが捉えたデータに焦点を当てることである。
HARPERの基盤となるシナリオには15のアクションが含まれており、そのうち10つはロボットとユーザの間の物理的接触を含んでいる。
論文 参考訳(メタデータ) (2024-03-21T14:53:50Z) - Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Scene Editing as Teleoperation: A Case Study in 6DoF Kit Assembly [18.563562557565483]
遠隔操作によるシーン編集(SEaT)の枠組みを提案する。
ロボットを制御する代わりに、ユーザーはタスクのゴールを指定することに集中する。
ユーザは、ロボットハードウェアの専門知識を必要とせずに遠隔操作を行うことができる。
論文 参考訳(メタデータ) (2021-10-09T04:22:21Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。