論文の概要: M3PT: A Transformer for Multimodal, Multi-Party Social Signal Prediction with Person-aware Blockwise Attention
- arxiv url: http://arxiv.org/abs/2501.13416v1
- Date: Thu, 23 Jan 2025 06:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:46.284290
- Title: M3PT: A Transformer for Multimodal, Multi-Party Social Signal Prediction with Person-aware Blockwise Attention
- Title(参考訳): M3PT: ブロックを意識したマルチモーダル・マルチパーティソーシャル信号予測用変換器
- Authors: Yiming Tang, Abrar Anwar, Jesse Thomason,
- Abstract要約: 本稿では,モーダリティと時間的ブロックワイドマスキングを備えた因果変換器アーキテクチャであるM3PTを紹介する。
我々は,人間-人間コミュニティデータセット上で統一モデルを訓練し,評価する。
- 参考スコア(独自算出の注目度): 13.798471960450323
- License:
- Abstract: Understanding social signals in multi-party conversations is important for human-robot interaction and artificial social intelligence. Multi-party interactions include social signals like body pose, head pose, speech, and context-specific activities like acquiring and taking bites of food when dining. Incorporating all the multimodal signals in a multi-party interaction is difficult, and past work tends to build task-specific models for predicting social signals. In this work, we address the challenge of predicting multimodal social signals in multi-party settings in a single model. We introduce M3PT, a causal transformer architecture with modality and temporal blockwise attention masking which allows for the simultaneous processing of multiple social cues across multiple participants and their temporal interactions. This approach better captures social dynamics over time by considering longer horizons of social signals between individuals. We train and evaluate our unified model on the Human-Human Commensality Dataset (HHCD), and demonstrate that using multiple modalities improves bite timing and speaking status prediction. Source code: https://github.com/AbrarAnwar/masked-social-signals/
- Abstract(参考訳): 多人数会話における社会的信号の理解は、人間とロボットの相互作用と人工知能にとって重要である。
多人数の対話には、身体のポーズ、頭ポーズ、スピーチなどの社会的信号、食事中に食べ物を噛んだり噛んだりといったコンテキスト固有の活動が含まれる。
マルチパーティインタラクションにすべてのマルチモーダル信号を組み込むことは困難であり、過去の作業は社会的信号を予測するタスク固有のモデルを構築する傾向がある。
本研究では,マルチモーダルなソーシャルシグナルを単一モデルで予測することの課題に対処する。
モータリティと時間的ブロックワイドアテンションマスキングを備えた因果トランスフォーマーアーキテクチャであるM3PTを導入し、複数の参加者をまたいだ複数のソーシャルキューの同時処理とその時間的相互作用を実現する。
このアプローチは、個人間の社会的シグナルの長い地平線を考えることによって、時間とともに社会的ダイナミクスを捉える。
我々は,HHCD(Human-Human Commensality Dataset)の統一モデルを訓練し,評価し,複数のモダリティを用いることで,噛み時間や発話状況の予測が向上することを示した。
ソースコード:https://github.com/AbrarAnwar/masked-social-signals/
関連論文リスト
- Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations [20.848802791989307]
本稿では,複数の人物間の微粒化動態をモデル化するための3つの新しい課題を紹介する。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
実験では, よりきめ細かい社会相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-03-04T14:46:58Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Generative Proxemics: A Prior for 3D Social Interaction from Images [32.547187575678464]
社会的相互作用は人間の行動とコミュニケーションの基本的な側面である。
近親密なソーシャルインタラクションにおける2人の3Dプロキセメクスの事前学習を行う新しいアプローチを提案する。
提案手法は,ノイズの多い初期推定値から正確な3次元ソーシャルインタラクションを復元し,最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-06-15T17:59:20Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Human-Robot Commensality: Bite Timing Prediction for Robot-Assisted
Feeding in Groups [18.367472953664016]
我々は、ソーシャルダイニングのシナリオにおいて、ロボットがいつ給食すべきかを予測するために、データ駆動モデルを開発する。
マルチモーダルなHuman-Human Commensalityデータセットを用いて、人間-Human Commensalityの振る舞いを分析する。
論文 参考訳(メタデータ) (2022-07-07T14:52:58Z) - SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian
Trajectory Prediction [59.064925464991056]
ソーシャルソフトアテンショングラフ畳み込みネットワーク(SSAGCN)という新しい予測モデルを提案する。
SSAGCNは、歩行者間の社会的相互作用と歩行者と環境間のシーンインタラクションを同時に扱うことを目的としている。
公開データセットの実験は、SAGCNの有効性を証明し、最先端の結果を得た。
論文 参考訳(メタデータ) (2021-12-05T01:49:18Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - I Know Where You Are Coming From: On the Impact of Social Media Sources
on AI Model Performance [79.05613148641018]
我々は、異なるソーシャルネットワークのマルチモーダルデータから学習する際、異なる機械学習モデルの性能について検討する。
最初の実験結果から,ソーシャルネットワークの選択がパフォーマンスに影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2020-02-05T11:10:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。