論文の概要: HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt
interaction tasks
- arxiv url: http://arxiv.org/abs/2308.12537v1
- Date: Thu, 24 Aug 2023 03:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 15:25:15.884883
- Title: HuBo-VLM: Unified Vision-Language Model designed for HUman roBOt
interaction tasks
- Title(参考訳): HuBo-VLM:HUman Robotインタラクションタスク用に設計された統合ビジョン言語モデル
- Authors: Zichao Dong, Weikun Zhang, Xufeng Huang, Hang Ji, Xin Zhan, Junbo Chen
- Abstract要約: 人間のロボットのインタラクションは、人間の指示に従ってロボットを誘導する、エキサイティングなタスクだ。
HuBo-VLMは人間のロボットのインタラクションに関連する知覚課題に取り組むために提案されている。
- 参考スコア(独自算出の注目度): 5.057755436092344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human robot interaction is an exciting task, which aimed to guide robots
following instructions from human. Since huge gap lies between human natural
language and machine codes, end to end human robot interaction models is fair
challenging. Further, visual information receiving from sensors of robot is
also a hard language for robot to perceive. In this work, HuBo-VLM is proposed
to tackle perception tasks associated with human robot interaction including
object detection and visual grounding by a unified transformer based vision
language model. Extensive experiments on the Talk2Car benchmark demonstrate the
effectiveness of our approach. Code would be publicly available in
https://github.com/dzcgaara/HuBo-VLM.
- Abstract(参考訳): 人間のロボットのインタラクションは、人間の指示に従ってロボットを誘導する、エキサイティングなタスクだ。
人間の自然言語と機械コードの間には大きなギャップがあるため、人間のロボットとのインタラクションモデルは極めて困難である。
さらに、ロボットのセンサからの視覚情報受信は、ロボットが知覚する難しい言語でもある。
本研究は,ロボットの物体検出や視覚の接地を含む人間のロボットのインタラクションに関連する知覚課題を統一トランスフォーマーによる視覚言語モデルを用いて解決するために提案する。
Talk2Carベンチマークの大規模な実験は、我々のアプローチの有効性を実証している。
コードはhttps://github.com/dzcgaara/HuBo-VLMで公開されている。
関連論文リスト
- LLM Granularity for On-the-Fly Robot Control [3.5015824313818578]
視覚が信頼できない、あるいは利用できない状況では、ロボットを制御するための言語のみに頼ることができるのか?
本研究は,(1)様々な粒度の言語プロンプトに対する補助ロボットの応答を評価し,(2)ロボットのオンザフライ制御の必要性と実現可能性を探る。
論文 参考訳(メタデータ) (2024-06-20T18:17:48Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - HOI4ABOT: Human-Object Interaction Anticipation for Human Intention Reading Collaborative roBOTs [9.806227900768926]
協調ロボットのためのヒューマン・オブジェクト・インタラクション(HOI)予測フレームワークを提案する。
本稿では,ビデオからHOIを検出し,予測するための,効率的かつ堅牢なトランスフォーマーベースモデルを提案する。
我々のモデルは、VidHOIデータセットにおけるHOI検出と予測の最先端結果よりも優れています。
論文 参考訳(メタデータ) (2023-09-28T15:34:49Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Robots with Different Embodiments Can Express and Influence Carefulness
in Object Manipulation [104.5440430194206]
本研究では,2つのロボットによるコミュニケーション意図による物体操作の知覚について検討する。
ロボットの動きを設計し,物体の搬送時に注意を喚起するか否かを判断した。
論文 参考訳(メタデータ) (2022-08-03T13:26:52Z) - Body Gesture Recognition to Control a Social Robot [5.557794184787908]
本研究では,人間の身体を自然に利用してロボットと対話できるジェスチャー型言語を提案する。
ニューラルネットワークを用いた新しいジェスチャー検出モデルと、ネットワークをトレーニングするための身体ジェスチャーセットを実行する人間のカスタムデータセットを作成しました。
論文 参考訳(メタデータ) (2022-06-15T13:49:22Z) - Joint Mind Modeling for Explanation Generation in Complex Human-Robot
Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。
ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。
その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-07-24T23:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。