論文の概要: ForceSight: Text-Guided Mobile Manipulation with Visual-Force Goals
- arxiv url: http://arxiv.org/abs/2309.12312v1
- Date: Thu, 21 Sep 2023 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 13:38:30.278729
- Title: ForceSight: Text-Guided Mobile Manipulation with Visual-Force Goals
- Title(参考訳): ForceSight:ビジュアルフォースゴールによるテキストガイドモバイル操作
- Authors: Jeremy A. Collins, Cody Houff, You Liang Tan, Charles C. Kemp
- Abstract要約: 本稿では,深層ニューラルネットワークを用いて視覚力目標を予測するテキスト誘導型モバイル操作システムであるForceSightを紹介する。
ForceSightは、精度の把握、引き出しのオープニング、オブジェクトハンドオーバといったタスクを、目に見えない環境で81%の成功率で実行した。
別の実験では、視覚的なサーボと無視力の目標のみに依存することで、成功率が90%から45%に低下し、力の目標がパフォーマンスを大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 7.728447960544735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ForceSight, a system for text-guided mobile manipulation that
predicts visual-force goals using a deep neural network. Given a single RGBD
image combined with a text prompt, ForceSight determines a target end-effector
pose in the camera frame (kinematic goal) and the associated forces (force
goal). Together, these two components form a visual-force goal. Prior work has
demonstrated that deep models outputting human-interpretable kinematic goals
can enable dexterous manipulation by real robots. Forces are critical to
manipulation, yet have typically been relegated to lower-level execution in
these systems. When deployed on a mobile manipulator equipped with an
eye-in-hand RGBD camera, ForceSight performed tasks such as precision grasps,
drawer opening, and object handovers with an 81% success rate in unseen
environments with object instances that differed significantly from the
training data. In a separate experiment, relying exclusively on visual servoing
and ignoring force goals dropped the success rate from 90% to 45%,
demonstrating that force goals can significantly enhance performance. The
appendix, videos, code, and trained models are available at
https://force-sight.github.io/.
- Abstract(参考訳): 本稿では,深層ニューラルネットワークを用いて視覚力目標を予測するテキスト誘導型モバイル操作システムであるForceSightを紹介する。
テキストプロンプトと1つのrgbdイメージを組み合わせると、forcesightはカメラフレーム(キネマティックゴール)と関連する力(フォースゴール)でターゲットエンドエフェクターポーズを決定する。
これら2つのコンポーネントは、視覚力目標を形成する。
先行研究では、人間の解釈可能な運動目標を出力できる深層モデルが、実際のロボットによるデクスタースな操作を可能にすることを実証した。
力は操作に欠かせないが、通常はこれらのシステムでの低レベルの実行に制限されている。
アイインハンドRGBDカメラを備えた移動マニピュレータに配備すると、ForceSightは、トレーニングデータと大きく異なるオブジェクトインスタンスを持つ未確認環境で、精度の把握、引き出しのオープニング、オブジェクトハンドオーバといったタスクを81%の成功率で実行した。
別の実験では、視覚サーボと力の目標の無視にのみ依存することで成功率が90%から45%に低下し、力の目標がパフォーマンスを著しく向上することを示した。
付録、ビデオ、コード、訓練されたモデルはhttps://force-sight.github.io/で入手できる。
関連論文リスト
- OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation [35.97702591413093]
一つのRGB-Dビデオから操作計画を生成する方法であるOKAMIを紹介する。
OKAMIは、オープンワールドビジョンモデルを使用して、タスク関連オブジェクトを特定し、身体の動きと手ポーズを別々に再ターゲットする。
論文 参考訳(メタデータ) (2024-10-15T17:17:54Z) - Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Click to Grasp: Zero-Shot Precise Manipulation via Visual Diffusion Descriptors [30.579707929061026]
本研究は,ゼロショット設定における精密操作のための微細部分記述子の接地について検討する。
我々は、それを密接な意味部分対応タスクとしてフレーミングすることで、この問題に対処する。
我々のモデルは、同じオブジェクトの視覚的に異なるインスタンスのソースイメージからユーザ定義クリックを参照して、特定の部分を操作するためのグリップパポーズを返します。
論文 参考訳(メタデータ) (2024-03-21T16:26:19Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - CAMS: CAnonicalized Manipulation Spaces for Category-Level Functional
Hand-Object Manipulation Synthesis [18.618218866876422]
本稿では,カテゴリレベルの機能的手オブジェクト操作合成の課題について述べる。
身体的に合理的な手オブジェクト操作シーケンスを生成し、人間のように動作します。
我々のフレームワークは、印象的な視覚効果を持つ厳密なカテゴリーと明瞭なカテゴリの両方に対して、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-25T07:03:12Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Use the Force, Luke! Learning to Predict Physical Forces by Simulating
Effects [79.351446087227]
物体と相互作用する人間の映像から接触点と物理的力の推測の問題に対処する。
具体的には、シミュレーションを用いて効果を予測し、推定された力がビデオに描かれたものと同じ効果をもたらすことを強制する。
論文 参考訳(メタデータ) (2020-03-26T17:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。