論文の概要: Affordance Perception by a Knowledge-Guided Vision-Language Model with Efficient Error Correction
- arxiv url: http://arxiv.org/abs/2407.13368v1
- Date: Thu, 18 Jul 2024 10:24:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:50:32.137782
- Title: Affordance Perception by a Knowledge-Guided Vision-Language Model with Efficient Error Correction
- Title(参考訳): 効率的な誤り訂正を含む知識誘導型視覚言語モデルによるアクシデンス知覚
- Authors: Gertjan Burghouts, Marianne Schaaphok, Michael van Bekkum, Wouter Meijer, Fieke Hillerström, Jelle van Mil,
- Abstract要約: オープンワールド環境におけるロボットに対して,正確かつ行動可能な価格表現を提供する。
我々は、この知識ベースを基礎となる視覚言語モデル(VLM)に接続し、VLMに、より広い種類の新しい、目に見えないオブジェクトを誘導する。
空白表現,画像検出,ループ内の人間との混在は,ロボットが目標を達成するために対象を探索する上で有効である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobile robot platforms will increasingly be tasked with activities that involve grasping and manipulating objects in open world environments. Affordance understanding provides a robot with means to realise its goals and execute its tasks, e.g. to achieve autonomous navigation in unknown buildings where it has to find doors and ways to open these. In order to get actionable suggestions, robots need to be able to distinguish subtle differences between objects, as they may result in different action sequences: doorknobs require grasp and twist, while handlebars require grasp and push. In this paper, we improve affordance perception for a robot in an open-world setting. Our contribution is threefold: (1) We provide an affordance representation with precise, actionable affordances; (2) We connect this knowledge base to a foundational vision-language models (VLM) and prompt the VLM for a wider variety of new and unseen objects; (3) We apply a human-in-the-loop for corrections on the output of the VLM. The mix of affordance representation, image detection and a human-in-the-loop is effective for a robot to search for objects to achieve its goals. We have demonstrated this in a scenario of finding various doors and the many different ways to open them.
- Abstract(参考訳): モバイルロボットプラットフォームは、オープンワールド環境におけるオブジェクトの把握と操作に関わる活動に、ますます取り組まれていくだろう。
Affordance Understandingは、ロボットに目標を実現し、タスクを実行するための手段を提供する。
動作可能な提案を得るためには、ロボットはオブジェクト間の微妙な違いを区別する必要がある。
本論文では,オープンワールド環境におけるロボットの余裕感を向上させる。
提案手法は,(1)正確で行動可能な手頃な価格表現,(2)基礎となる視覚言語モデル(VLM)とこの知識ベースを結びつけること,(3)VLMの出力の補正に人間-イン・ザ・ループを適用すること,の3つである。
空白表現,画像検出,ループ内の人間との混在は,ロボットが目標を達成するために対象を探索する上で有効である。
私たちはこれを、さまざまなドアと、それを開くさまざまな方法を見つけるシナリオで実証しました。
関連論文リスト
- Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。
現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。
本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文 参考訳(メタデータ) (2024-07-02T21:00:30Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation [65.46610405509338]
Track2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象の剛体変換列を推定し、ロボットのエンドエフェクタのポーズを得る。
学習したトラック予測を残留ポリシーと組み合わせることで、ゼロショットロボットの操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Understanding Contexts Inside Robot and Human Manipulation Tasks through
a Vision-Language Model and Ontology System in a Video Stream [4.450615100675747]
本稿では,ロボットと人間の操作の双方に対して,厳密な制約付き知識領域の下で視覚データセットを提案する。
本稿では,視覚的注意とコモンセンス知識に満ちた知識グラフを組み合わせて生成する手法を提案する。
提案手法により,ロボットはリアルタイム映像を視聴することで,人間の意図的な動作を模倣することができる。
論文 参考訳(メタデータ) (2020-03-02T19:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。