論文の概要: Deep Visual Reasoning: Learning to Predict Action Sequences for Task and
Motion Planning from an Initial Scene Image
- arxiv url: http://arxiv.org/abs/2006.05398v1
- Date: Tue, 9 Jun 2020 16:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 13:17:25.092797
- Title: Deep Visual Reasoning: Learning to Predict Action Sequences for Task and
Motion Planning from an Initial Scene Image
- Title(参考訳): Deep Visual Reasoning:初期シーン画像からタスクと動作計画のためのアクションシーケンスを予測する学習
- Authors: Danny Driess, Jung-Su Ha, Marc Toussaint
- Abstract要約: 本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。
重要な側面として、我々の手法は、一度に2つのオブジェクトでしか訓練されないにもかかわらず、多数の異なるオブジェクトを持つシーンに一般化する。
- 参考スコア(独自算出の注目度): 43.05971157389743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a deep convolutional recurrent neural network that
predicts action sequences for task and motion planning (TAMP) from an initial
scene image. Typical TAMP problems are formalized by combining reasoning on a
symbolic, discrete level (e.g. first-order logic) with continuous motion
planning such as nonlinear trajectory optimization. Due to the great
combinatorial complexity of possible discrete action sequences, a large number
of optimization/motion planning problems have to be solved to find a solution,
which limits the scalability of these approaches.
To circumvent this combinatorial complexity, we develop a neural network
which, based on an initial image of the scene, directly predicts promising
discrete action sequences such that ideally only one motion planning problem
has to be solved to find a solution to the overall TAMP problem. A key aspect
is that our method generalizes to scenes with many and varying number of
objects, although being trained on only two objects at a time. This is possible
by encoding the objects of the scene in images as input to the neural network,
instead of a fixed feature vector. Results show runtime improvements of several
magnitudes. Video: https://youtu.be/i8yyEbbvoEk
- Abstract(参考訳): 本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。
典型的なTAMP問題は、シンボリックな離散レベル(例えば一階述語論理)の推論と非線形軌道最適化のような連続的な運動計画を組み合わせることで定式化される。
可能な離散的なアクションシーケンスの組合せの複雑さのため、ソリューションを見つけるために多くの最適化や動き計画の問題が解決され、これらのアプローチのスケーラビリティが制限される。
この組み合わせの複雑さを回避するために、シーンの初期画像に基づいて、理想的には1つの動作計画問題のみを解決し、全体のTAMP問題の解を求めるような、有望な離散的なアクションシーケンスを直接予測するニューラルネットワークを開発する。
重要な側面として、我々の手法は、一度に2つのオブジェクトだけをトレーニングしながら、多数の異なるオブジェクトを持つシーンに一般化する。
これは、固定された特徴ベクトルの代わりに、画像内のシーンのオブジェクトをニューラルネットワークへの入力としてエンコードすることで可能となる。
結果は、数桁のランタイム改善を示している。
ビデオ: https://youtu.be/i8yEbbvoEk
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Neural MP: A Generalist Neural Motion Planner [75.82675575009077]
運動計画問題にデータ駆動学習を大規模に適用することで,これを実現する。
提案手法は, シミュレーションの複雑なシーンを多数構築し, モーションプランナーから専門家のデータを収集し, 反応的なジェネラリストポリシーに抽出する。
我々は,4つの異なる環境における64の動作計画タスクについて,その方法の徹底的な評価を行う。
論文 参考訳(メタデータ) (2024-09-09T17:59:45Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Learning to Search in Task and Motion Planning with Streams [20.003445874753233]
ロボット工学におけるタスク計画問題と動作計画問題は、個別のタスク変数に対するシンボリック計画と、連続状態および動作変数に対する動作最適化を組み合わせたものである。
対象と事実の集合を最優先的に拡張する幾何学的情報に基づく記号プランナを提案する。
ブロックスタッキング操作タスクにおいて,このアルゴリズムを7DOFロボットアームに適用する。
論文 参考訳(メタデータ) (2021-11-25T15:58:31Z) - Neural Scene Flow Prior [30.878829330230797]
ディープラーニング革命以前、多くの知覚アルゴリズムは実行時最適化と強力な事前/正規化ペナルティに基づいていた。
本稿では,実行時最適化と強い正規化に大きく依存するシーンフロー問題を再考する。
ここでの中心的なイノベーションは、ニューラルネットワークのアーキテクチャを新しいタイプの暗黙正則化器として使用する、前もってニューラルネットワークのシーンフローを含めることである。
論文 参考訳(メタデータ) (2021-11-01T20:44:12Z) - Neural Manipulation Planning on Constraint Manifolds [13.774614900994342]
マルチモーダルキネマティック制約に対する最初のニューラルプランナーであるConstrained Motion Planning Networks (CoMPNet)を提案する。
我々は,制約のない問題と制約のない問題の両方を含む実用的な動作計画タスクを,CoMPNetが解決していることを示す。
トレーニング中に見えないような、高い成功率の環境において、オブジェクトの新しい見えない場所に一般化する。
論文 参考訳(メタデータ) (2020-08-09T18:58:10Z) - Action sequencing using visual permutations [19.583283039057505]
この研究は、単一の参照視覚状態で条件付けられたニューラルアクションシークエンシングのタスクについて考察する。
本稿では、置換の観点から、置換と順序付けの概念の両方について推論できることから、アクションシークエンシングの利点を論じる。
論文 参考訳(メタデータ) (2020-08-03T19:49:06Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。