論文の概要: Visually Grounding Instruction for History-Dependent Manipulation
- arxiv url: http://arxiv.org/abs/2012.08977v1
- Date: Wed, 16 Dec 2020 14:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 11:46:28.301651
- Title: Visually Grounding Instruction for History-Dependent Manipulation
- Title(参考訳): 履歴依存マニピュレーションのための視覚的接地指導
- Authors: Hyemin Ahn, Obin Kwon, Kyoungdo Kim, Dongheui Lee, Songhwai Oh
- Abstract要約: 本稿では,ロボットが一連の操作を行う際に,タスク履歴を参照する能力の重要性を強調した。
タスク履歴に応じて適切な操作を行うための一連のテキスト命令を視覚的に接地する,履歴依存操作のタスクを紹介する。
また、関連するデータセットとディープニューラルネットワークに基づく方法論を提案し、合成データセットでトレーニングされたネットワークが実世界に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 31.147179896695828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper emphasizes the importance of robot's ability to refer its task
history, when it executes a series of pick-and-place manipulations by following
text instructions given one by one. The advantage of referring the manipulation
history can be categorized into two folds: (1) the instructions omitting
details or using co-referential expressions can be interpreted, and (2) the
visual information of objects occluded by previous manipulations can be
inferred. For this challenge, we introduce the task of history-dependent
manipulation which is to visually ground a series of text instructions for
proper manipulations depending on the task history. We also suggest a relevant
dataset and a methodology based on the deep neural network, and show that our
network trained with a synthetic dataset can be applied to the real world based
on images transferred into synthetic-style based on the CycleGAN.
- Abstract(参考訳): 本稿では,ロボットのタスク履歴を参照する能力の重要性を強調する。
操作履歴を参照することの利点は、(1)詳細を省略する命令、または共参照式を使用する指示を解釈し、(2)以前の操作で無視されたオブジェクトの視覚情報を推測する2つの折り返しに分類することができる。
本稿では,タスク履歴に応じて適切な操作を行うための一連のテキスト命令を視覚的に接地する,履歴依存操作のタスクを紹介する。
また、ディープニューラルネットワークに基づく関連するデータセットと方法論を提案し、CycleGANに基づく合成スタイルに変換された画像に基づいて、合成データセットでトレーニングされたネットワークを現実世界に適用可能であることを示す。
関連論文リスト
- Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - Instructing Prompt-to-Prompt Generation for Zero-Shot Learning [116.33775552866476]
伝達可能な知識発見のための指導的視覚的プロンプトを蒸留するためのtextbfPrompt-to-textbfPrompt 生成手法 (textbfP2P) を提案する。
P2Pのコアとなるのは、アクセシブル条件付き視覚特徴と、モーダル共有セマンティック概念に関するテキスト命令からセマンティック関連命令をマイニングすることである。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Text2Grasp: Grasp synthesis by text prompts of object grasping parts [4.031699584957737]
この手は、物体をつかみ、操作する人間の能力において重要な役割を担っている。
人間の意図やタスクレベルの言語を、本来のあいまいさを把握するための制御信号として利用する既存の方法。
本研究では,より精密な制御が可能なオブジェクト把握部であるText2Graspのテキストプロンプトによって導かれるグリップ合成手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T10:57:27Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Text-driven Affordance Learning from Egocentric Vision [6.699930460835963]
ロボットのためのテキスト駆動型アベイランス学習手法を提案する。
我々は,テキストの指示に従って,自我中心の視点から接触点を学習し,軌道を操作することを目的としている。
われわれのアプローチは、現実のシナリオにおける空き学習の新しい標準として、複数の空き時間を扱う。
論文 参考訳(メタデータ) (2024-04-03T07:23:03Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Learning Fabric Manipulation in the Real World with Human Videos [10.608723220309678]
ファブリック操作は、巨大な状態空間と複雑な力学のため、ロボット工学における長年の課題である。
従来の手法のほとんどはシミュレーションに大きく依存しており、依然として変形可能な物体の大きなsim-to-realギャップによって制限されている。
有望な代替手段は、人間がタスクを実行するのを見ることから直接布地操作を学ぶことである。
論文 参考訳(メタデータ) (2022-11-05T07:09:15Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Learning Sensorimotor Primitives of Sequential Manipulation Tasks from
Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。
提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。
ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文 参考訳(メタデータ) (2022-03-08T01:36:48Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。