Fugu-MT 論文翻訳(概要): Deep Visual Reasoning: Learning to Predict Action Sequences for Task and Motion Planning from an Initial Scene Image

論文の概要: Deep Visual Reasoning: Learning to Predict Action Sequences for Task and Motion Planning from an Initial Scene Image

arxiv url: http://arxiv.org/abs/2006.05398v1
Date: Tue, 9 Jun 2020 16:52:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 13:17:25.092797
Title: Deep Visual Reasoning: Learning to Predict Action Sequences for Task and Motion Planning from an Initial Scene Image
Title（参考訳）: Deep Visual Reasoning:初期シーン画像からタスクと動作計画のためのアクションシーケンスを予測する学習
Authors: Danny Driess, Jung-Su Ha, Marc Toussaint
Abstract要約: 本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。重要な側面として、我々の手法は、一度に2つのオブジェクトでしか訓練されないにもかかわらず、多数の異なるオブジェクトを持つシーンに一般化する。
参考スコア（独自算出の注目度）: 43.05971157389743
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a deep convolutional recurrent neural network that predicts action sequences for task and motion planning (TAMP) from an initial scene image. Typical TAMP problems are formalized by combining reasoning on a symbolic, discrete level (e.g. first-order logic) with continuous motion planning such as nonlinear trajectory optimization. Due to the great combinatorial complexity of possible discrete action sequences, a large number of optimization/motion planning problems have to be solved to find a solution, which limits the scalability of these approaches. To circumvent this combinatorial complexity, we develop a neural network which, based on an initial image of the scene, directly predicts promising discrete action sequences such that ideally only one motion planning problem has to be solved to find a solution to the overall TAMP problem. A key aspect is that our method generalizes to scenes with many and varying number of objects, although being trained on only two objects at a time. This is possible by encoding the objects of the scene in images as input to the neural network, instead of a fixed feature vector. Results show runtime improvements of several magnitudes. Video: https://youtu.be/i8yyEbbvoEk
Abstract（参考訳）: 本稿では,タスク・アンド・モーション・プランニング(TAMP)の動作シーケンスを初期シーン画像から予測する深部畳み込みリカレントニューラルネットワークを提案する。典型的なTAMP問題は、シンボリックな離散レベル(例えば一階述語論理)の推論と非線形軌道最適化のような連続的な運動計画を組み合わせることで定式化される。可能な離散的なアクションシーケンスの組合せの複雑さのため、ソリューションを見つけるために多くの最適化や動き計画の問題が解決され、これらのアプローチのスケーラビリティが制限される。この組み合わせの複雑さを回避するために、シーンの初期画像に基づいて、理想的には1つの動作計画問題のみを解決し、全体のTAMP問題の解を求めるような、有望な離散的なアクションシーケンスを直接予測するニューラルネットワークを開発する。重要な側面として、我々の手法は、一度に2つのオブジェクトだけをトレーニングしながら、多数の異なるオブジェクトを持つシーンに一般化する。これは、固定された特徴ベクトルの代わりに、画像内のシーンのオブジェクトをニューラルネットワークへの入力としてエンコードすることで可能となる。結果は、数桁のランタイム改善を示している。ビデオ: https://youtu.be/i8yEbbvoEk

関連論文リスト

MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
Neural MP: A Generalist Neural Motion Planner [75.82675575009077]
運動計画問題にデータ駆動学習を大規模に適用することで,これを実現する。提案手法は, シミュレーションの複雑なシーンを多数構築し, モーションプランナーから専門家のデータを収集し, 反応的なジェネラリストポリシーに抽出する。我々は,4つの異なる環境における64の動作計画タスクについて,その方法の徹底的な評価を行う。
論文参考訳（メタデータ） (2024-09-09T17:59:45Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Learning to Search in Task and Motion Planning with Streams [20.003445874753233]
ロボット工学におけるタスク計画問題と動作計画問題は、個別のタスク変数に対するシンボリック計画と、連続状態および動作変数に対する動作最適化を組み合わせたものである。対象と事実の集合を最優先的に拡張する幾何学的情報に基づく記号プランナを提案する。ブロックスタッキング操作タスクにおいて,このアルゴリズムを7DOFロボットアームに適用する。
論文参考訳（メタデータ） (2021-11-25T15:58:31Z)
Neural Scene Flow Prior [30.878829330230797]
ディープラーニング革命以前、多くの知覚アルゴリズムは実行時最適化と強力な事前/正規化ペナルティに基づいていた。本稿では,実行時最適化と強い正規化に大きく依存するシーンフロー問題を再考する。ここでの中心的なイノベーションは、ニューラルネットワークのアーキテクチャを新しいタイプの暗黙正則化器として使用する、前もってニューラルネットワークのシーンフローを含めることである。
論文参考訳（メタデータ） (2021-11-01T20:44:12Z)
Neural Manipulation Planning on Constraint Manifolds [13.774614900994342]
マルチモーダルキネマティック制約に対する最初のニューラルプランナーであるConstrained Motion Planning Networks (CoMPNet)を提案する。我々は,制約のない問題と制約のない問題の両方を含む実用的な動作計画タスクを,CoMPNetが解決していることを示す。トレーニング中に見えないような、高い成功率の環境において、オブジェクトの新しい見えない場所に一般化する。
論文参考訳（メタデータ） (2020-08-09T18:58:10Z)
Action sequencing using visual permutations [19.583283039057505]
この研究は、単一の参照視覚状態で条件付けられたニューラルアクションシークエンシングのタスクについて考察する。本稿では、置換の観点から、置換と順序付けの概念の両方について推論できることから、アクションシークエンシングの利点を論じる。
論文参考訳（メタデータ） (2020-08-03T19:49:06Z)
A Flexible Framework for Designing Trainable Priors with Adaptive Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文参考訳（メタデータ） (2020-06-26T08:34:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。