論文の概要: M3PT: A Transformer for Multimodal, Multi-Party Social Signal Prediction with Person-aware Blockwise Attention
- arxiv url: http://arxiv.org/abs/2501.13416v2
- Date: Mon, 03 Feb 2025 03:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:05:50.609730
- Title: M3PT: A Transformer for Multimodal, Multi-Party Social Signal Prediction with Person-aware Blockwise Attention
- Title(参考訳): M3PT: ブロックを意識したマルチモーダル・マルチパーティソーシャル信号予測用変換器
- Authors: Yiming Tang, Abrar Anwar, Jesse Thomason,
- Abstract要約: 社会的なシグナルには、身体のポーズ、頭ポーズ、スピーチ、食事中に食べ物を噛んだり噛んだりといったコンテキスト特有の活動が含まれる。
複数のソーシャルキューを同時に処理するために,モータリティと時間的ブロックワイドアテンションマスキングを備えた因果トランスフォーマーアーキテクチャであるM3PTを導入する。
複数モーダルの使用により,噛み時間と発話状態の予測が向上することが実証された。
- 参考スコア(独自算出の注目度): 13.798471960450323
- License:
- Abstract: Understanding social signals in multi-party conversations is important for human-robot interaction and artificial social intelligence. Social signals include body pose, head pose, speech, and context-specific activities like acquiring and taking bites of food when dining. Past work in multi-party interaction tends to build task-specific models for predicting social signals. In this work, we address the challenge of predicting multimodal social signals in multi-party settings in a single model. We introduce M3PT, a causal transformer architecture with modality and temporal blockwise attention masking to simultaneously process multiple social cues across multiple participants and their temporal interactions. We train and evaluate M3PT on the Human-Human Commensality Dataset (HHCD), and demonstrate that using multiple modalities improves bite timing and speaking status prediction. Source code: https://github.com/AbrarAnwar/masked-social-signals/.
- Abstract(参考訳): 多人数会話における社会的信号の理解は、人間とロボットの相互作用と人工知能にとって重要である。
社会的なシグナルには、身体のポーズ、頭ポーズ、スピーチ、食事中に食べ物を噛んだり噛んだりといったコンテキスト特有の活動が含まれる。
マルチパーティインタラクションにおける過去の作業は、社会的信号を予測するタスク固有のモデルを構築する傾向にある。
本研究では,マルチモーダルなソーシャルシグナルを単一モデルで予測することの課題に対処する。
モータリティと時間的ブロックワイドアテンションマスキングを備えた因果トランスフォーマーアーキテクチャであるM3PTを導入し、複数の参加者と時間的相互作用を同時に処理する。
我々はHHCD(Human-Human Commensality Dataset)でM3PTを訓練・評価し、複数のモーダルを使用すれば、噛み時間や発話状況の予測が向上することを示した。
ソースコード:https://github.com/AbrarAnwar/masked-social-signals/
関連論文リスト
- SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters [38.90959051732146]
SOLAMIは,3次元自律型キャラクタとの没入型インタラクションのための,初のエンドツーエンドのソーシャルビジョン・ランゲージ・アクション(VLA)モデリングフレームワークである。
本稿では,ユーザのマルチモーダル入力をベースとしたマルチモーダル応答(音声と動き)を生成するソーシャルVLAフレームワークを提案する。
既存の動作データセットのみを用いて自動パイプラインによって生成された合成マルチモーダルなソーシャルインタラクションデータセットであるSynMSIを提案する。
論文 参考訳(メタデータ) (2024-11-29T18:53:40Z) - Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations [20.848802791989307]
本稿では,複数の人物間の微粒化動態をモデル化するための3つの新しい課題を紹介する。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
実験では, よりきめ細かい社会相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-04T14:46:58Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Generative Proxemics: A Prior for 3D Social Interaction from Images [32.547187575678464]
社会的相互作用は人間の行動とコミュニケーションの基本的な側面である。
近親密なソーシャルインタラクションにおける2人の3Dプロキセメクスの事前学習を行う新しいアプローチを提案する。
提案手法は,ノイズの多い初期推定値から正確な3次元ソーシャルインタラクションを復元し,最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-06-15T17:59:20Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Human-Robot Commensality: Bite Timing Prediction for Robot-Assisted
Feeding in Groups [18.367472953664016]
我々は、ソーシャルダイニングのシナリオにおいて、ロボットがいつ給食すべきかを予測するために、データ駆動モデルを開発する。
マルチモーダルなHuman-Human Commensalityデータセットを用いて、人間-Human Commensalityの振る舞いを分析する。
論文 参考訳(メタデータ) (2022-07-07T14:52:58Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian
Trajectory Prediction [59.064925464991056]
ソーシャルソフトアテンショングラフ畳み込みネットワーク(SSAGCN)という新しい予測モデルを提案する。
SSAGCNは、歩行者間の社会的相互作用と歩行者と環境間のシーンインタラクションを同時に扱うことを目的としている。
公開データセットの実験は、SAGCNの有効性を証明し、最先端の結果を得た。
論文 参考訳(メタデータ) (2021-12-05T01:49:18Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。