論文の概要: Robust Robotic Pouring using Audition and Haptics
- arxiv url: http://arxiv.org/abs/2003.00342v2
- Date: Wed, 14 Oct 2020 15:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:44:25.818010
- Title: Robust Robotic Pouring using Audition and Haptics
- Title(参考訳): オーディションと触覚を用いたロバストなロボット注ぐ
- Authors: Hongzhuo Liang and Chuangchuang Zhou and Shuang Li and Xiaojian Ma and
Norman Hendrich and Timo Gerkmann and Fuchun Sun and Marcus Stoffel and
Jianwei Zhang
- Abstract要約: MP-Netは、オーディションと触覚の両方の入力を条件付けすることで、液体の高さを頑健に予測することができる。
このデータセットには,3種類のターゲットコンテナに対する音声および力/トルク測定を備えた300個のロボットの注ぐ記録が含まれている。
- 参考スコア(独自算出の注目度): 30.707253973680178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust and accurate estimation of liquid height lies as an essential part of
pouring tasks for service robots. However, vision-based methods often fail in
occluded conditions while audio-based methods cannot work well in a noisy
environment. We instead propose a multimodal pouring network (MP-Net) that is
able to robustly predict liquid height by conditioning on both audition and
haptics input. MP-Net is trained on a self-collected multimodal pouring
dataset. This dataset contains 300 robot pouring recordings with audio and
force/torque measurements for three types of target containers. We also augment
the audio data by inserting robot noise. We evaluated MP-Net on our collected
dataset and a wide variety of robot experiments. Both network training results
and robot experiments demonstrate that MP-Net is robust against noise and
changes to the task and environment. Moreover, we further combine the predicted
height and force data to estimate the shape of the target container.
- Abstract(参考訳): 液体高さのロバストで正確な推定は、サービスロボットの注水作業の重要な部分である。
しかし、視覚に基づく方法はオクルードされた環境では失敗することが多いが、音声ベースの方法はノイズの多い環境ではうまく機能しない。
そこで我々は, オーディションと触覚の両方の入力を条件に, 液体の高さを頑健に予測できるマルチモーダル注水ネットワーク (MP-Net) を提案する。
MP-Netは自己コンパイル型マルチモーダルインダストデータセットでトレーニングされている。
このデータセットには、3種類のターゲットコンテナのオーディオとフォース/トーク測定による記録を流す300のロボットが含まれている。
ロボットノイズを挿入することで音声データも強化する。
収集したデータセットと多種多様なロボット実験でmp-netを評価した。
ネットワークトレーニングの結果とロボット実験の両方で、MP-Netはノイズやタスクや環境の変化に対して堅牢であることを示した。
さらに、予測された高さと力のデータを組み合わせて、対象容器の形状を推定する。
関連論文リスト
- RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - Tiny Transformers for Environmental Sound Classification at the Edge [0.6193838300896449]
本研究は,エッジにおける環境音の分類分野における音響モデルの訓練手法を提案する。
具体的には、トランスフォーマーの設計とトレーニングを行い、オフィスのサウンドをオーディオクリップに分類します。
その結果、BERTベースのトランスフォーマーはメルスペクトログラムで訓練され、99.85%のパラメータでCNNより優れていた。
論文 参考訳(メタデータ) (2021-03-22T20:12:15Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - Learning from Demonstration with Weakly Supervised Disentanglement [19.292205450379996]
本稿では,確率的生成モデルに対する最適化問題として,実証から解釈可能な学習の課題を論じる。
このようなアライメントは、エンドユーザーからのラベルを使用することで、適切に制限された語彙で達成できることを示す。
本手法は,PR2ロボットが行う2つのテーブルトップロボット操作タスクの文脈で評価する。
論文 参考訳(メタデータ) (2020-06-16T12:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。