論文の概要: Deep Visual Reasoning: Learning to Predict Action Sequences for Task and
Motion Planning from an Initial Scene Image
- arxiv url: http://arxiv.org/abs/2006.05398v1
- Date: Tue, 9 Jun 2020 16:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 13:17:25.092797
- Title: Deep Visual Reasoning: Learning to Predict Action Sequences for Task and
Motion Planning from an Initial Scene Image
- Title(参考訳): Deep Visual Reasoning:初期シーン画像からタスクと動作計画のためのアクションシーケンスを予測する学習
- Authors: Danny Driess, Jung-Su Ha, Marc Toussaint
- Abstract要約: 本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。
重要な側面として、我々の手法は、一度に2つのオブジェクトでしか訓練されないにもかかわらず、多数の異なるオブジェクトを持つシーンに一般化する。
- 参考スコア(独自算出の注目度): 43.05971157389743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a deep convolutional recurrent neural network that
predicts action sequences for task and motion planning (TAMP) from an initial
scene image. Typical TAMP problems are formalized by combining reasoning on a
symbolic, discrete level (e.g. first-order logic) with continuous motion
planning such as nonlinear trajectory optimization. Due to the great
combinatorial complexity of possible discrete action sequences, a large number
of optimization/motion planning problems have to be solved to find a solution,
which limits the scalability of these approaches.
To circumvent this combinatorial complexity, we develop a neural network
which, based on an initial image of the scene, directly predicts promising
discrete action sequences such that ideally only one motion planning problem
has to be solved to find a solution to the overall TAMP problem. A key aspect
is that our method generalizes to scenes with many and varying number of
objects, although being trained on only two objects at a time. This is possible
by encoding the objects of the scene in images as input to the neural network,
instead of a fixed feature vector. Results show runtime improvements of several
magnitudes. Video: https://youtu.be/i8yyEbbvoEk
- Abstract(参考訳): 本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。
典型的なTAMP問題は、シンボリックな離散レベル(例えば一階述語論理)の推論と非線形軌道最適化のような連続的な運動計画を組み合わせることで定式化される。
可能な離散的なアクションシーケンスの組合せの複雑さのため、ソリューションを見つけるために多くの最適化や動き計画の問題が解決され、これらのアプローチのスケーラビリティが制限される。
この組み合わせの複雑さを回避するために、シーンの初期画像に基づいて、理想的には1つの動作計画問題のみを解決し、全体のTAMP問題の解を求めるような、有望な離散的なアクションシーケンスを直接予測するニューラルネットワークを開発する。
重要な側面として、我々の手法は、一度に2つのオブジェクトだけをトレーニングしながら、多数の異なるオブジェクトを持つシーンに一般化する。
これは、固定された特徴ベクトルの代わりに、画像内のシーンのオブジェクトをニューラルネットワークへの入力としてエンコードすることで可能となる。
結果は、数桁のランタイム改善を示している。
ビデオ: https://youtu.be/i8yEbbvoEk
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Shuffled Autoregression For Motion Interpolation [53.61556200049156]
この作業は、モーションタスクのためのディープラーニングソリューションを提供することを目的としている。
本稿では,自己回帰を任意の(シャッフルされた)順序で生成するために拡張する,emphShuffled AutoRegressionと呼ばれる新しいフレームワークを提案する。
また,3つのステージを終端から終端の時空間運動変換器に組み込んだ依存グラフの構築手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T07:14:59Z) - Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance [83.25826307000717]
単一の動き赤画像から詳細な動きを復元する際の課題について検討する。
既存の解法では、各領域の運動のあいまいさを考慮せずに単一の画像列を推定する。
本稿では、このような動きのあいまいさを明示的に説明し、複数の可算解をシャープな詳細で生成することができる。
論文 参考訳(メタデータ) (2022-07-20T18:05:53Z) - Learning to Search in Task and Motion Planning with Streams [20.003445874753233]
ロボット工学におけるタスク計画問題と動作計画問題は、個別のタスク変数に対するシンボリック計画と、連続状態および動作変数に対する動作最適化を組み合わせたものである。
対象と事実の集合を最優先的に拡張する幾何学的情報に基づく記号プランナを提案する。
ブロックスタッキング操作タスクにおいて,このアルゴリズムを7DOFロボットアームに適用する。
論文 参考訳(メタデータ) (2021-11-25T15:58:31Z) - Neural Scene Flow Prior [30.878829330230797]
ディープラーニング革命以前、多くの知覚アルゴリズムは実行時最適化と強力な事前/正規化ペナルティに基づいていた。
本稿では,実行時最適化と強い正規化に大きく依存するシーンフロー問題を再考する。
ここでの中心的なイノベーションは、ニューラルネットワークのアーキテクチャを新しいタイプの暗黙正則化器として使用する、前もってニューラルネットワークのシーンフローを含めることである。
論文 参考訳(メタデータ) (2021-11-01T20:44:12Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z) - Neural Manipulation Planning on Constraint Manifolds [13.774614900994342]
マルチモーダルキネマティック制約に対する最初のニューラルプランナーであるConstrained Motion Planning Networks (CoMPNet)を提案する。
我々は,制約のない問題と制約のない問題の両方を含む実用的な動作計画タスクを,CoMPNetが解決していることを示す。
トレーニング中に見えないような、高い成功率の環境において、オブジェクトの新しい見えない場所に一般化する。
論文 参考訳(メタデータ) (2020-08-09T18:58:10Z) - Action sequencing using visual permutations [19.583283039057505]
この研究は、単一の参照視覚状態で条件付けられたニューラルアクションシークエンシングのタスクについて考察する。
本稿では、置換の観点から、置換と順序付けの概念の両方について推論できることから、アクションシークエンシングの利点を論じる。
論文 参考訳(メタデータ) (2020-08-03T19:49:06Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。