論文の概要: Joint Engagement Classification using Video Augmentation Techniques for
Multi-person Human-robot Interaction
- arxiv url: http://arxiv.org/abs/2212.14128v1
- Date: Wed, 28 Dec 2022 23:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:31:09.579751
- Title: Joint Engagement Classification using Video Augmentation Techniques for
Multi-person Human-robot Interaction
- Title(参考訳): 多人数ロボットインタラクションのためのビデオ拡張技術を用いた関節エンゲージメント分類
- Authors: Yubin Kim, Huili Chen, Sharifa Alghowinem, Cynthia Breazeal, and Hae
Won Park
- Abstract要約: 本稿では,親子のダイアドの交際関係を同定するための新しい枠組みを提案する。
家庭の社会ロボットと一緒に物語本を読む親のダイアドのデータセットを用いて、まずRGBフレームと骨格ベースの関節エンゲージメント認識モデルを訓練する。
第2に,ロボット親子間相互作用における学習モデルの使用に関する実験結果を示す。
- 参考スコア(独自算出の注目度): 22.73774398716566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Affect understanding capability is essential for social robots to
autonomously interact with a group of users in an intuitive and reciprocal way.
However, the challenge of multi-person affect understanding comes from not only
the accurate perception of each user's affective state (e.g., engagement) but
also the recognition of the affect interplay between the members (e.g., joint
engagement) that presents as complex, but subtle, nonverbal exchanges between
them. Here we present a novel hybrid framework for identifying a parent-child
dyad's joint engagement by combining a deep learning framework with various
video augmentation techniques. Using a dataset of parent-child dyads reading
storybooks together with a social robot at home, we first train RGB frame- and
skeleton-based joint engagement recognition models with four video augmentation
techniques (General Aug, DeepFake, CutOut, and Mixed) applied datasets to
improve joint engagement classification performance. Second, we demonstrate
experimental results on the use of trained models in the robot-parent-child
interaction context. Third, we introduce a behavior-based metric for evaluating
the learned representation of the models to investigate the model
interpretability when recognizing joint engagement. This work serves as the
first step toward fully unlocking the potential of end-to-end video
understanding models pre-trained on large public datasets and augmented with
data augmentation and visualization techniques for affect recognition in the
multi-person human-robot interaction in the wild.
- Abstract(参考訳): 社会的ロボットは、直感的かつ相互にユーザーグループと自律的に対話する上で、影響理解能力が不可欠である。
しかし、マルチパーソンが理解に影響を与えるという課題は、ユーザーの感情状態(例えば、エンゲージメント)の正確な認識だけでなく、その間の複雑な、しかし微妙な非言語的な交流を示すメンバー同士の相互行為(例えば、共同エンゲージメント)の認識からも生じる。
本稿では,ディープラーニングフレームワークと各種映像付加技術を組み合わせて,親子dyadの協力関係を識別するための新しいハイブリッドフレームワークを提案する。
家庭でソーシャルロボットと一緒にストーリーブックを読む親子のデータセットを用いて、まずRGBフレームと骨格ベースの関節エンゲージメント認識モデルを4つのビデオ強化技術(General Aug、DeepFake、CutOut、Mixed)でトレーニングし、関節エンゲージメント分類性能を向上させる。
第2に,ロボット親子インタラクションにおける学習モデルの使用に関する実験結果を示す。
第3に,モデルの学習表現を評価するための行動基準を導入し,協調関係を認識する際のモデル解釈可能性について検討する。
この研究は、大規模な公開データセットで事前訓練されたエンドツーエンドビデオ理解モデルの可能性を完全に解き放つための第一歩であり、野生の複数対人ロボットインタラクションにおける認識に影響を与えるためのデータ拡張と可視化技術が強化されている。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Interpretable Data Fusion for Distributed Learning: A Representative Approach via Gradient Matching [19.193379036629167]
本稿では,複数の生データポイントを仮想表現に変換する分散学習のための代表的アプローチを提案する。
これにより、広範囲なデータセットを消化可能なフォーマットに凝縮し、直感的な人間と機械の相互作用を促進する。
論文 参考訳(メタデータ) (2024-05-06T18:21:41Z) - Learning Mutual Excitation for Hand-to-Hand and Human-to-Human
Interaction Recognition [22.538114033191313]
相互励起グラフ畳み込み層を積み重ねた相互励起グラフ畳み込みネットワーク(me-GCN)を提案する。
Me-GCは各レイヤとグラフ畳み込み操作の各ステージで相互情報を学習する。
提案するme-GCは,最先端GCN法およびTransformer法より優れている。
論文 参考訳(メタデータ) (2024-02-04T10:00:00Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Human-to-Human Interaction Detection [3.00604614803979]
ヒューマン・ツー・ヒューマン・インタラクション検出(HID)という新しいタスクを導入する。
HIDは、被験者の検出、個人的行動の認識、対話的な関係に応じたグループ化に、1つのモデルで取り組みます。
まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、AVA-Interaction(AVA-I)と呼ばれる新しいHIDベンチマークを確立する。
論文 参考訳(メタデータ) (2023-07-02T03:24:58Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。