論文の概要: MILD: Multimodal Interactive Latent Dynamics for Learning Human-Robot
Interaction
- arxiv url: http://arxiv.org/abs/2210.12418v1
- Date: Sat, 22 Oct 2022 11:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:05:57.972841
- Title: MILD: Multimodal Interactive Latent Dynamics for Learning Human-Robot
Interaction
- Title(参考訳): MILD:人間-ロボットインタラクション学習のためのマルチモーダル対話型潜時ダイナミクス
- Authors: Vignesh Prasad, Dorothea Koert, Ruth Stock-Homburg, Jan Peters,
Georgia Chalvatzaki
- Abstract要約: 我々は,HRI(Human-Robot Interactions)の問題に対処するために,MILD(Multimodal Interactive Latent Dynamics)を提案する。
変分オートエンコーダ(VAE)の潜時空間における相互作用エージェントの結合分布をモデル化するために,Hidden Semi-Markov Models (HSMMs) を用いて実演から相互作用ダイナミクスを学習する。
MILDは、観察されたエージェント(人間の)軌道に条件付けされたときに、制御されたエージェント(ロボット)に対してより正確な軌道を生成する。
- 参考スコア(独自算出の注目度): 34.978017200500005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modeling interaction dynamics to generate robot trajectories that enable a
robot to adapt and react to a human's actions and intentions is critical for
efficient and effective collaborative Human-Robot Interactions (HRI). Learning
from Demonstration (LfD) methods from Human-Human Interactions (HHI) have shown
promising results, especially when coupled with representation learning
techniques. However, such methods for learning HRI either do not scale well to
high dimensional data or cannot accurately adapt to changing via-poses of the
interacting partner. We propose Multimodal Interactive Latent Dynamics (MILD),
a method that couples deep representation learning and probabilistic machine
learning to address the problem of two-party physical HRIs. We learn the
interaction dynamics from demonstrations, using Hidden Semi-Markov Models
(HSMMs) to model the joint distribution of the interacting agents in the latent
space of a Variational Autoencoder (VAE). Our experimental evaluations for
learning HRI from HHI demonstrations show that MILD effectively captures the
multimodality in the latent representations of HRI tasks, allowing us to decode
the varying dynamics occurring in such tasks. Compared to related work, MILD
generates more accurate trajectories for the controlled agent (robot) when
conditioned on the observed agent's (human) trajectory. Notably, MILD can learn
directly from camera-based pose estimations to generate trajectories, which we
then map to a humanoid robot without the need for any additional training.
- Abstract(参考訳): 相互作用力学をモデル化し、ロボットが人間の行動や意図に適応し、反応できるロボット軌道を生成することは、効率的で効果的な協調的人間-ロボット相互作用(HRI)にとって重要である。
HHI(Human-Human Interactions)からのLfD(Learning from Demonstration)手法は,特に表現学習技術と組み合わせることで,有望な結果を示す。
しかし、HRIの学習方法は高次元データにうまくスケールできないか、相互作用するパートナーの移動目的の変化に正確に適応できないかのいずれかである。
本研究では,深部表現学習と確率的機械学習を組み合わせた多モード対話型潜在ダイナミクス (mild) を提案する。
本研究では,Hidden Semi-Markov Models (HSMM) を用いて,変動オートエンコーダ (VAE) の潜時空間における相互作用エージェントの結合分布をモデル化する。
HHIの実証からHRIを学習するための実験的な評価は、MILDがHRIタスクの潜在表現の多モード性を効果的に捉え、そのようなタスクで発生する様々なダイナミクスをデコードできることを示している。
関連する作業と比較すると、マイルドは、観察されたエージェント(人間)の軌道上で条件づけされた場合、制御されたエージェント(ロボット)に対してより正確な軌道を生成する。
特に、MILDはカメラベースのポーズ推定から直接学習して軌道を生成し、追加のトレーニングを必要とせずにヒューマノイドロボットにマップする。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - MoVEInt: Mixture of Variational Experts for Learning Human-Robot Interactions from Demonstrations [19.184155232662995]
我々は,人間-ロボットインタラクション(HRI)のための共有潜在空間表現学習のための新しいアプローチを提案する。
本研究では,情報的潜在空間を用いて,ロボットの動きを正規化するための変分オートエンコーダ(VAE)を訓練する。
VAEにおける人間の観察に先立って情報的MDNを使用するアプローチは,より正確なロボットの動きを生成する。
論文 参考訳(メタデータ) (2024-07-10T13:16:12Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - MATRIX: Multi-Agent Trajectory Generation with Diverse Contexts [47.12378253630105]
マルチヒューマン・ロボットインタラクションシナリオにおけるトラジェクトリレベルのデータ生成について検討する。
Diverse conteXts(MATRIX)を用いたマルチエージェントTRajectory生成と呼ばれる学習に基づく自動軌道生成モデルを提案する。
論文 参考訳(メタデータ) (2024-03-09T23:28:54Z) - NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction [19.65778558341053]
HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。
音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。
マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-04T18:02:41Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Learning Multimodal Latent Dynamics for Human-Robot Interaction [19.803547418450236]
本稿では,ヒト-ヒトインタラクション(HHI)から協調型人間-ロボットインタラクション(HRI)を学習する方法を提案する。
本研究では,隠れマルコフモデル(HMM)を変分オートエンコーダの潜在空間として用いて,相互作用するエージェントの結合分布をモデル化するハイブリッドアプローチを考案する。
ユーザが私たちのメソッドを,より人間らしく,タイムリーで,正確なものと認識し,他のベースラインよりも高い優先度でメソッドをランク付けすることが分かりました。
論文 参考訳(メタデータ) (2023-11-27T23:56:59Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。