論文の概要: Latent Emission-Augmented Perspective-Taking (LEAPT) for Human-Robot
Interaction
- arxiv url: http://arxiv.org/abs/2308.06498v1
- Date: Sat, 12 Aug 2023 08:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 17:04:48.441653
- Title: Latent Emission-Augmented Perspective-Taking (LEAPT) for Human-Robot
Interaction
- Title(参考訳): 人-ロボットインタラクションのための潜在発光増進パースペクティブタイキング(LEAPT)
- Authors: Kaiqi Chen, Jing Yu Lim, Kingsley Kuan, Harold Soh
- Abstract要約: 本稿では,ロボットが知覚と概念的視点の両方を捉えることができる深層世界モデルを提案する。
鍵となる革新は、架空の観測・放出を生成・拡張できる多モード潜在状態モデルである。
我々は,3つの部分観測可能なHRIタスクにおいて,人間の観察と信念を予測するために,モデルを実行した。
- 参考スコア(独自算出の注目度): 16.19711863900126
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Perspective-taking is the ability to perceive or understand a situation or
concept from another individual's point of view, and is crucial in daily human
interactions. Enabling robots to perform perspective-taking remains an unsolved
problem; existing approaches that use deterministic or handcrafted methods are
unable to accurately account for uncertainty in partially-observable settings.
This work proposes to address this limitation via a deep world model that
enables a robot to perform both perception and conceptual perspective taking,
i.e., the robot is able to infer what a human sees and believes. The key
innovation is a decomposed multi-modal latent state space model able to
generate and augment fictitious observations/emissions. Optimizing the ELBO
that arises from this probabilistic graphical model enables the learning of
uncertainty in latent space, which facilitates uncertainty estimation from
high-dimensional observations. We tasked our model to predict human
observations and beliefs on three partially-observable HRI tasks. Experiments
show that our method significantly outperforms existing baselines and is able
to infer visual observations available to other agent and their internal
beliefs.
- Abstract(参考訳): パースペクティブテイク(英: Perspective-take)とは、他者の視点から状況や概念を知覚または理解する能力であり、日々の人間との相互作用において重要である。
決定論的あるいは手作りの手法を用いた既存のアプローチでは、部分的に観察可能な設定で不確実性を正確に説明できない。
本研究は、ロボットが知覚と概念の両方の視点を取ることを可能にする深世界モデルを通じて、この制限に対処することを提案する。
鍵となるイノベーションは、架空の観察/放出を生成・増強できる分解されたマルチモーダル潜在状態空間モデルである。
この確率的グラフィカルモデルから生じるエルボの最適化は、潜在空間における不確かさの学習を可能にし、高次元観測からの不確実性推定を容易にする。
我々は,3つの部分観測可能なHRIタスクにおいて,人間の観察と信念を予測するために,モデルを実行した。
実験により,本手法は既存のベースラインを著しく上回り,他のエージェントとその内的信念の視覚的観察を推し進めることができた。
関連論文リスト
- Adaptive Motion Generation Using Uncertainty-Driven Foresight Prediction [2.2120851074630177]
環境の不確実性は、現実のロボットタスクを実行する際には、長年、扱いにくい特徴だった。
本稿では,動的内部シミュレーションを用いたフォレスト予測を用いた既存の予測学習に基づくロボット制御手法を拡張した。
その結果,提案モデルではドアとの相互作用により動作が適応的に分岐し,従来の手法では安定に分岐しなかった。
論文 参考訳(メタデータ) (2024-10-01T15:13:27Z) - Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。
視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-05T12:38:10Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Robot Learning Theory of Mind through Self-Observation: Exploiting the
Intentions-Beliefs Synergy [0.0]
心の理論(みんがく、英: Theory of Mind、TOM)は、他のエージェントの信念、意図、精神状態に起因する能力である。
我々は,意図や目標などの低レベル精神状態を予測する学習と,信念などの高レベル精神状態に寄与する学習の相乗効果を示す。
我々は,今後の適応型社会ロボットの設計に,我々のアーキテクチャ的アプローチが関係することを提案する。
論文 参考訳(メタデータ) (2022-10-17T21:12:39Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - Deep Interpretable Models of Theory of Mind For Human-Agent Teaming [0.7734726150561086]
我々は、他の観測対象の意図をモデル化するための解釈可能なモジュラー・ニューラル・フレームワークを開発する。
Minecraftの検索および救助タスクで、人間の参加者のデータに関する実験を行い、アプローチの有効性を実証します。
論文 参考訳(メタデータ) (2021-04-07T06:18:58Z) - Careful with That! Observation of Human Movements to Estimate Objects
Properties [106.925705883949]
我々は、物体の重さについての洞察を伝える人間の運動行動の特徴に焦点を当てる。
最後の目標は、ロボットがオブジェクトハンドリングに必要なケアの度合いを自律的に推測できるようにすることです。
論文 参考訳(メタデータ) (2021-03-02T08:14:56Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。