論文の概要: PovNet+: A Deep Learning Architecture for Socially Assistive Robots to Learn and Assist with Multiple Activities of Daily Living
- arxiv url: http://arxiv.org/abs/2602.00131v1
- Date: Wed, 28 Jan 2026 04:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.966052
- Title: PovNet+: A Deep Learning Architecture for Socially Assistive Robots to Learn and Assist with Multiple Activities of Daily Living
- Title(参考訳): PovNet+: 社会支援型ロボットによる多人数生活支援のための深層学習アーキテクチャ
- Authors: Fraser Robinson, Souren Pashangpour, Matthew Lisondra, Goldie Nejat,
- Abstract要約: 自律型社会支援ロボットの長期展開における大きな障壁は、日常生活における複数の活動の知覚と支援の両方ができないことである。
社会支援ロボットのためのマルチアクティブ認識のための最初のマルチモーダルディープラーニングアーキテクチャPOVNet+を提案する。
- 参考スコア(独自算出の注目度): 4.96981595868944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A significant barrier to the long-term deployment of autonomous socially assistive robots is their inability to both perceive and assist with multiple activities of daily living (ADLs). In this paper, we present the first multimodal deep learning architecture, POVNet+, for multi-activity recognition for socially assistive robots to proactively initiate assistive behaviors. Our novel architecture introduces the use of both ADL and motion embedding spaces to uniquely distinguish between a known ADL being performed, a new unseen ADL, or a known ADL being performed atypically in order to assist people in real scenarios. Furthermore, we apply a novel user state estimation method to the motion embedding space to recognize new ADLs while monitoring user performance. This ADL perception information is used to proactively initiate robot assistive interactions. Comparison experiments with state-of-the-art human activity recognition methods show our POVNet+ method has higher ADL classification accuracy. Human-robot interaction experiments in a cluttered living environment with multiple users and the socially assistive robot Leia using POVNet+ demonstrate the ability of our multi-modal ADL architecture in successfully identifying different seen and unseen ADLs, and ADLs being performed atypically, while initiating appropriate assistive human-robot interactions.
- Abstract(参考訳): 自律型社会支援ロボットの長期展開における大きな障壁は、日常生活における複数の活動(ADL)を知覚し、支援することができないことである。
本稿では,社会支援ロボットのためのマルチモーダル深層学習アーキテクチャPOVNet+を提案する。
我々の新しいアーキテクチャでは、ADLが実行されている既知のADL、新しい未知のADL、または既知のADLを非典型的に区別するために、ADLとモーション埋め込み空間の両方を導入している。
さらに、ユーザパフォーマンスを監視しながら、新しいADLを認識するために、新しいユーザ状態推定手法をモーション埋め込み空間に適用する。
このADL知覚情報は、ロボットのアシストインタラクションを積極的に開始するために使用される。
最先端の人間行動認識法との比較実験により,POVNet+法はADL分類精度が高いことが示された。
POVNet+ を用いたマルチモーダル型 ADL アーキテクチャを用いて,複数ユーザによる混在した生活環境における人間とロボットのインタラクション実験を行った。
関連論文リスト
- RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.09049429566238]
我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。
目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。
シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
論文 参考訳(メタデータ) (2025-10-27T18:49:03Z) - Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。
N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。
モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文 参考訳(メタデータ) (2025-07-30T09:48:34Z) - Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models [50.19518681574399]
現実の遠隔操作における中心的な課題は、ロボットがユーザー制御入力から幅広い人間の意図を推測することである。
我々は、事前学習された視覚言語モデルに埋め込まれたコモンセンス知識を活用する、支援型遠隔操作システムであるCasperを紹介する。
我々は,Casperがタスク性能を改善し,人間の認知負荷を低減し,直接遠隔操作や補助遠隔操作のベースラインよりもユーザ満足度が高いことを示す。
論文 参考訳(メタデータ) (2025-06-17T17:06:43Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - Large Language Models are Zero-Shot Recognizers for Activities of Daily Living [0.29998889086656577]
LLMに基づく新しいADL認識システムであるADL-LLMを提案する。
ADL-LLMは、生センサデータをLLMによって処理されたテキスト表現に変換し、ゼロショットADL認識を行う。
ADL-LLMを2つの公開データセット上で評価し,その有効性を示した。
論文 参考訳(メタデータ) (2024-07-01T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。