論文の概要: Perceive, Represent, Generate: Translating Multimodal Information to
Robotic Motion Trajectories
- arxiv url: http://arxiv.org/abs/2204.03051v1
- Date: Wed, 6 Apr 2022 19:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:08:31.200493
- Title: Perceive, Represent, Generate: Translating Multimodal Information to
Robotic Motion Trajectories
- Title(参考訳): 知覚・表現・生成:多モーダル情報をロボット運動軌道に翻訳する
- Authors: F\'abio Vital, Miguel Vasco, Alberto Sardinha, and Francisco Melo
- Abstract要約: 知覚表現生成(英: Perceive-Represent-Generate、PRG)は、ロボットが実行する動作の適切なシーケンスに異なるモードの知覚情報をマッピングするフレームワークである。
我々は,ロボットが異なる知覚的モーダル(画像,音など)を通して単語を入力として受け取り,対応する運動軌跡を生成するという,新しいロボット手書き作業の文脈でパイプラインを評価した。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Perceive-Represent-Generate (PRG), a novel three-stage framework
that maps perceptual information of different modalities (e.g., visual or
sound), corresponding to a sequence of instructions, to an adequate sequence of
movements to be executed by a robot. In the first stage, we perceive and
pre-process the given inputs, isolating individual commands from the complete
instruction provided by a human user. In the second stage we encode the
individual commands into a multimodal latent space, employing a deep generative
model. Finally, in the third stage we convert the multimodal latent values into
individual trajectories and combine them into a single dynamic movement
primitive, allowing its execution in a robotic platform. We evaluate our
pipeline in the context of a novel robotic handwriting task, where the robot
receives as input a word through different perceptual modalities (e.g., image,
sound), and generates the corresponding motion trajectory to write it, creating
coherent and readable handwritten words.
- Abstract(参考訳): 本稿では,ロボットが実行する動作の適切なシーケンスに,命令のシーケンスに対応する様々なモード(例えば視覚や音)の知覚情報をマッピングする,新しい3段階のフレームワークであるPerceive-Represent-Generate(PRG)を提案する。
最初の段階では、与えられた入力を認識し、事前処理し、人間のユーザが提供する完全な命令から個々のコマンドを分離する。
第2段階では、個々のコマンドを多モード潜在空間にエンコードし、深層生成モデルを用いる。
最後に、第3段階では、マルチモーダル潜在値を個々の軌跡に変換し、それらを単一の動的運動プリミティブに組み合わせ、ロボットプラットフォームでの実行を可能にする。
我々は,ロボットが異なる知覚的モーダル(画像,音など)を通して単語を入力として受け取り,それに対応する運動軌跡を生成し,一貫性と読みやすい手書き語を生成する,新しいロボット手書き作業の文脈でパイプラインを評価する。
関連論文リスト
- Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Signs of Language: Embodied Sign Language Fingerspelling Acquisition
from Demonstrations for Human-Robot Interaction [1.0166477175169308]
本稿では,ビデオ例からデキスタスモータの模倣を学習する手法を提案する。
まず,関節に1つのアクチュエータを備えたロボットハンドのURDFモデルを構築した。
トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。
論文 参考訳(メタデータ) (2022-09-12T10:42:26Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。