論文の概要: Shaken, Not Stirred: A Novel Dataset for Visual Understanding of Glasses in Human-Robot Bartending Tasks
- arxiv url: http://arxiv.org/abs/2503.04308v1
- Date: Thu, 06 Mar 2025 10:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:58:33.324192
- Title: Shaken, Not Stirred: A Novel Dataset for Visual Understanding of Glasses in Human-Robot Bartending Tasks
- Title(参考訳): Shaken, not Stirred:人間とロボットの係留作業におけるガラスの視覚的理解のための新しいデータセット
- Authors: Lukáš Gajdošech, Hassan Ali, Jan-Gerrit Habekost, Martin Madaras, Matthias Kerzel, Stefan Wermter,
- Abstract要約: 我々は,ヒューマノイドロボットプラットフォームであるNICOL(Neuro-Inspired COLlaborator)上で収集された,新しい実世界のガラスオブジェクトデータセットを提供する。
トレーニングされたベースラインモデルは、最先端のオープンボキャブラリアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.02995441433222
- License:
- Abstract: Datasets for object detection often do not account for enough variety of glasses, due to their transparent and reflective properties. Specifically, open-vocabulary object detectors, widely used in embodied robotic agents, fail to distinguish subclasses of glasses. This scientific gap poses an issue to robotic applications that suffer from accumulating errors between detection, planning, and action execution. The paper introduces a novel method for the acquisition of real-world data from RGB-D sensors that minimizes human effort. We propose an auto-labeling pipeline that generates labels for all the acquired frames based on the depth measurements. We provide a novel real-world glass object dataset that was collected on the Neuro-Inspired COLlaborator (NICOL), a humanoid robot platform. The data set consists of 7850 images recorded from five different cameras. We show that our trained baseline model outperforms state-of-the-art open-vocabulary approaches. In addition, we deploy our baseline model in an embodied agent approach to the NICOL platform, on which it achieves a success rate of 81% in a human-robot bartending scenario.
- Abstract(参考訳): オブジェクト検出のためのデータセットは、透明で反射的な性質のため、十分な種類の眼鏡を考慮しないことが多い。
具体的には、ロボットエージェントに広く使われているオープンボキャブラリオブジェクト検出器は、メガネのサブクラスを区別することができない。
この科学的ギャップは、検出、計画、行動実行のエラーを蓄積するロボットアプリケーションに問題を引き起こす。
本稿では,RGB-Dセンサから実世界のデータを取得するための新しい手法を提案する。
深度測定に基づく全フレームのラベルを生成する自動ラベルパイプラインを提案する。
我々は,ヒューマノイドロボットプラットフォームであるNICOL(Neuro-Inspired COLlaborator)上で収集された,新しい実世界のガラスオブジェクトデータセットを提供する。
データセットは5つの異なるカメラから記録された7850枚の画像で構成されている。
トレーニングされたベースラインモデルは、最先端のオープンボキャブラリアプローチよりも優れていることを示す。
さらに、NICOLプラットフォームへの具体的エージェントアプローチでベースラインモデルをデプロイし、人間ロボットバーテンディングシナリオにおいて81%の成功率を達成する。
関連論文リスト
- PickScan: Object discovery and reconstruction from handheld interactions [99.99566882133179]
シーンの3次元表現を再構成する対話誘導型クラス依存型手法を開発した。
我々の主な貢献は、操作対象のインタラクションを検出し、操作対象のマスクを抽出する新しいアプローチである。
相互作用ベースとクラス非依存のベースラインであるCo-Fusionと比較すると、これはシャムファー距離の73%の減少に相当する。
論文 参考訳(メタデータ) (2024-11-17T23:09:08Z) - OptiGrasp: Optimized Grasp Pose Detection Using RGB Images for Warehouse Picking Robots [27.586777997464644]
倉庫環境では、ロボットはさまざまなオブジェクトを管理するために堅牢なピッキング機能を必要とする。
基礎モデルを活用する革新的な手法を提案し,RGB画像のみを用いた吸引把握を向上する。
我々のネットワークは実世界のアプリケーションで82.3%の成功率を達成した。
論文 参考訳(メタデータ) (2024-09-29T00:20:52Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Multimodal Anomaly Detection based on Deep Auto-Encoder for Object Slip
Perception of Mobile Manipulation Robots [22.63980025871784]
提案フレームワークは,RGBや深度カメラ,マイク,力トルクセンサなど,さまざまなロボットセンサから収集した異種データストリームを統合する。
統合されたデータは、ディープオートエンコーダを訓練して、通常の状態を示す多感覚データの潜在表現を構築するために使用される。
次に、トレーニングされたエンコーダの潜伏値と再構成された入力データの潜伏値との差によって測定された誤差スコアによって異常を識別することができる。
論文 参考訳(メタデータ) (2024-03-06T09:15:53Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Rapid Pose Label Generation through Sparse Representation of Unknown
Objects [7.32172860877574]
本研究は、未知のオブジェクトに対する実世界のポーズアノテートされたRGB-Dデータを高速に生成するためのアプローチを提案する。
我々はまず、RGB-Dビデオのセット上で任意に選択されたキーポイントの順序付きセットの最小限のラベルを出力する。
最適化問題を解くことにより、これらのラベルをワールドフレームの下に組み合わせ、スパースでキーポイントに基づくオブジェクトの表現を復元する。
論文 参考訳(メタデータ) (2020-11-07T15:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。