論文の概要: Visually Grounding Instruction for History-Dependent Manipulation
- arxiv url: http://arxiv.org/abs/2012.08977v1
- Date: Wed, 16 Dec 2020 14:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 11:46:28.301651
- Title: Visually Grounding Instruction for History-Dependent Manipulation
- Title(参考訳): 履歴依存マニピュレーションのための視覚的接地指導
- Authors: Hyemin Ahn, Obin Kwon, Kyoungdo Kim, Dongheui Lee, Songhwai Oh
- Abstract要約: 本稿では,ロボットが一連の操作を行う際に,タスク履歴を参照する能力の重要性を強調した。
タスク履歴に応じて適切な操作を行うための一連のテキスト命令を視覚的に接地する,履歴依存操作のタスクを紹介する。
また、関連するデータセットとディープニューラルネットワークに基づく方法論を提案し、合成データセットでトレーニングされたネットワークが実世界に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 31.147179896695828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper emphasizes the importance of robot's ability to refer its task
history, when it executes a series of pick-and-place manipulations by following
text instructions given one by one. The advantage of referring the manipulation
history can be categorized into two folds: (1) the instructions omitting
details or using co-referential expressions can be interpreted, and (2) the
visual information of objects occluded by previous manipulations can be
inferred. For this challenge, we introduce the task of history-dependent
manipulation which is to visually ground a series of text instructions for
proper manipulations depending on the task history. We also suggest a relevant
dataset and a methodology based on the deep neural network, and show that our
network trained with a synthetic dataset can be applied to the real world based
on images transferred into synthetic-style based on the CycleGAN.
- Abstract(参考訳): 本稿では,ロボットのタスク履歴を参照する能力の重要性を強調する。
操作履歴を参照することの利点は、(1)詳細を省略する命令、または共参照式を使用する指示を解釈し、(2)以前の操作で無視されたオブジェクトの視覚情報を推測する2つの折り返しに分類することができる。
本稿では,タスク履歴に応じて適切な操作を行うための一連のテキスト命令を視覚的に接地する,履歴依存操作のタスクを紹介する。
また、ディープニューラルネットワークに基づく関連するデータセットと方法論を提案し、CycleGANに基づく合成スタイルに変換された画像に基づいて、合成データセットでトレーニングされたネットワークを現実世界に適用可能であることを示す。
関連論文リスト
- NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Learning Fabric Manipulation in the Real World with Human Videos [10.608723220309678]
ファブリック操作は、巨大な状態空間と複雑な力学のため、ロボット工学における長年の課題である。
従来の手法のほとんどはシミュレーションに大きく依存しており、依然として変形可能な物体の大きなsim-to-realギャップによって制限されている。
有望な代替手段は、人間がタスクを実行するのを見ることから直接布地操作を学ぶことである。
論文 参考訳(メタデータ) (2022-11-05T07:09:15Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and
Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。
No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。
このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。
各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文 参考訳(メタデータ) (2022-06-13T16:20:42Z) - Learning Sensorimotor Primitives of Sequential Manipulation Tasks from
Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。
提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。
ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文 参考訳(メタデータ) (2022-03-08T01:36:48Z) - Transformer-Based Approach for Joint Handwriting and Named Entity
Recognition in Historical documents [1.7491858164568674]
本研究は,手書き文書における名前付きエンティティ認識にトランスフォーマネットワークを採用した最初のアプローチを示す。
我々は,Esposalles データベースを用いた ICDAR 2017 Information extract コンペティションにおいて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-08T09:26:21Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Encoding cloth manipulations using a graph of states and transitions [8.778914180886835]
本稿では,布の操作状態の汎用的,コンパクトかつ簡易な表現を提案する。
タスクを達成するためのすべての戦略をエンコードするクラス操作グラフも定義しています。
論文 参考訳(メタデータ) (2020-09-30T13:56:13Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。