論文の概要: Modeling Multimodal Social Interactions: New Challenges and Baselines
with Densely Aligned Representations
- arxiv url: http://arxiv.org/abs/2403.02090v1
- Date: Mon, 4 Mar 2024 14:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:27:20.283379
- Title: Modeling Multimodal Social Interactions: New Challenges and Baselines
with Densely Aligned Representations
- Title(参考訳): マルチモーダルな社会的相互作用のモデリング : 厳密な表現による新しい課題とベースライン
- Authors: Sangmin Lee, Bolin Lai, Fiona Ryan, Bikram Boote, James M. Rehg
- Abstract要約: 複数人間のきめ細かいダイナミクスをモデル化するための3つの新しい課題を紹介します。
視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
- 参考スコア(独自算出の注目度): 22.36755372349628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding social interactions involving both verbal and non-verbal cues
is essential to effectively interpret social situations. However, most prior
works on multimodal social cues focus predominantly on single-person behaviors
or rely on holistic visual representations that are not densely aligned to
utterances in multi-party environments. They are limited in modeling the
intricate dynamics of multi-party interactions. In this paper, we introduce
three new challenging tasks to model the fine-grained dynamics between multiple
people: speaking target identification, pronoun coreference resolution, and
mentioned player prediction. We contribute extensive data annotations to curate
these new challenges in social deduction game settings. Furthermore, we propose
a novel multimodal baseline that leverages densely aligned language-visual
representations by synchronizing visual features with their corresponding
utterances. This facilitates concurrently capturing verbal and non-verbal cues
pertinent to social reasoning. Experiments demonstrate the effectiveness of the
proposed approach with densely aligned multimodal representations in modeling
social interactions. We will release our benchmarks and source code to
facilitate further research.
- Abstract(参考訳): 言語的および非言語的手がかりを含む社会的相互作用を理解することは、社会的状況の効果的解釈に不可欠である。
しかし、それまでのマルチモーダルな社会的手がかりに関する研究は、主に個人の行動に焦点をあてたり、多人数環境における発話と密に一致しない全体的視覚表現に頼っていた。
それらは多人数間相互作用の複雑なダイナミクスのモデル化に制限がある。
本稿では,複数人間のきめ細かなダイナミクスをモデル化するための課題として,発話目標識別,代名詞コーリファレンス解決,言及されたプレーヤ予測の3つの課題について紹介する。
我々は、ソーシャル推論ゲーム設定におけるこれらの新たな課題をキュレートするために、広範なデータアノテーションに貢献している。
さらに、視覚特徴と対応する発話を同期させることにより、密集した言語視覚表現を活用できる、新しいマルチモーダルベースラインを提案する。
これにより、社会的推論に関連する言語的および非言語的手がかりの同時捕獲が容易になる。
社会的相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を示す実験を行った。
さらなる研究を促進するため、ベンチマークとソースコードをリリースします。
関連論文リスト
- Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
本稿では,ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
既存の作業では、リスナーは話者の声や顔の動きに対する反射的な振る舞いを持つ反応剤であると考えられている。
我々のフレームワークの核心はDyadic Interaction Modeling (DIM)であり、これは話者の動作とリスナーの動きを共同でモデル化する事前学習のアプローチである。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Gated Multimodal Fusion with Contrastive Learning for Turn-taking
Prediction in Human-robot Dialogue [15.710861456924158]
次の話者がいつ話し始めるかを決めることを目的としたターンテイキングは、人間ロボットによる対話システムを構築する上で不可欠な要素である。
まず,5000以上の人間とロボットの対話を音声とテキストのモダリティで行うターンテイクのための大規模な注釈付きコーパスを収集する。
ターンテイク予測に様々な情報をシームレスに利用するために,新しいゲート型マルチモーダル融合機構を考案した。
論文 参考訳(メタデータ) (2022-04-18T05:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。