Fugu-MT 論文翻訳(概要): Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations

論文の概要: Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations

arxiv url: http://arxiv.org/abs/2403.02090v1
Date: Mon, 4 Mar 2024 14:46:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 18:27:20.283379
Title: Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations
Title（参考訳）: マルチモーダルな社会的相互作用のモデリング : 厳密な表現による新しい課題とベースライン
Authors: Sangmin Lee, Bolin Lai, Fiona Ryan, Bikram Boote, James M. Rehg
Abstract要約: 複数人間のきめ細かいダイナミクスをモデル化するための3つの新しい課題を紹介します。視覚特徴とそれに対応する発話を同期させることにより、密集した言語-視覚表現を活用する新しいマルチモーダルベースラインを提案する。
参考スコア（独自算出の注目度）: 22.36755372349628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding social interactions involving both verbal and non-verbal cues is essential to effectively interpret social situations. However, most prior works on multimodal social cues focus predominantly on single-person behaviors or rely on holistic visual representations that are not densely aligned to utterances in multi-party environments. They are limited in modeling the intricate dynamics of multi-party interactions. In this paper, we introduce three new challenging tasks to model the fine-grained dynamics between multiple people: speaking target identification, pronoun coreference resolution, and mentioned player prediction. We contribute extensive data annotations to curate these new challenges in social deduction game settings. Furthermore, we propose a novel multimodal baseline that leverages densely aligned language-visual representations by synchronizing visual features with their corresponding utterances. This facilitates concurrently capturing verbal and non-verbal cues pertinent to social reasoning. Experiments demonstrate the effectiveness of the proposed approach with densely aligned multimodal representations in modeling social interactions. We will release our benchmarks and source code to facilitate further research.
Abstract（参考訳）: 言語的および非言語的手がかりを含む社会的相互作用を理解することは、社会的状況の効果的解釈に不可欠である。しかし、それまでのマルチモーダルな社会的手がかりに関する研究は、主に個人の行動に焦点をあてたり、多人数環境における発話と密に一致しない全体的視覚表現に頼っていた。それらは多人数間相互作用の複雑なダイナミクスのモデル化に制限がある。本稿では,複数人間のきめ細かなダイナミクスをモデル化するための課題として,発話目標識別,代名詞コーリファレンス解決,言及されたプレーヤ予測の3つの課題について紹介する。我々は、ソーシャル推論ゲーム設定におけるこれらの新たな課題をキュレートするために、広範なデータアノテーションに貢献している。さらに、視覚特徴と対応する発話を同期させることにより、密集した言語視覚表現を活用できる、新しいマルチモーダルベースラインを提案する。これにより、社会的推論に関連する言語的および非言語的手がかりの同時捕獲が容易になる。社会的相互作用をモデル化する上で, 密集したマルチモーダル表現を用いた提案手法の有効性を示す実験を行った。さらなる研究を促進するため、ベンチマークとソースコードをリリースします。

関連論文リスト

Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Grounding Task Assistance with Multimodal Cues from a Single Demonstration [17.975173937253494]
MICA(Multimodal Interactive Contextualized Assistance)は、視線と音声の手がかりを統合することで、タスク支援のための会話エージェントを改善するフレームワークである。リアルタイムチャット支援タスク複製から得られる質問に対する評価は,複数モーダルキューがフレームベース検索よりも応答品質を著しく向上することを示している。
論文参考訳（メタデータ） (2025-05-02T20:43:11Z)
SocialGen: Modeling Multi-Human Social Interaction with Language Models [30.068879125411726]
多様な個人間での対話行動のモデル化が可能な,最初の統合運動言語モデルであるSocialGenを紹介する。対人インタラクションに限られる従来の方法とは異なり、任意の数の個人の動きのトークン化を支援する新しい社会運動表現を提案する。このアライメントにより、モデルは豊かで訓練済みの言語知識を活用して、人間の社会的行動をよりよく理解し、推論することができる。
論文参考訳（メタデータ） (2025-03-28T22:57:25Z)
Towards Online Multi-Modal Social Interaction Understanding [36.37278022436327]
本稿では,記録された対話やビデオストリームなどの履歴情報のみを用いて,MMSIタスクをモデルが解決しなければならないオンラインMMSI設定を提案する。マルチパーティ会話予測とソーシャル・アウェア・ビジュアル・プロンプトという2つの補完的戦略を活用する新しいフレームワークである Online-MMSI-VLM を開発した。提案手法は最先端の性能を達成し,ベースラインモデルを大幅に上回り,オンラインMMSIにおける有効性を示す。
論文参考訳（メタデータ） (2025-03-25T17:17:19Z)
Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文参考訳（メタデータ） (2024-12-21T02:22:06Z)
Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文参考訳（メタデータ） (2024-07-11T02:14:06Z)
Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2024-03-14T03:21:33Z)
AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。 AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文参考訳（メタデータ） (2024-01-26T19:17:05Z)
MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。 MMoEは様々な種類のモデルに適用でき、改善できる。
論文参考訳（メタデータ） (2023-11-16T05:31:21Z)
Face-to-Face Contrastive Learning for Social Intelligence Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文参考訳（メタデータ） (2022-07-29T20:39:44Z)
Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文参考訳（メタデータ） (2022-07-20T13:37:57Z)
A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文参考訳（メタデータ） (2022-07-10T23:31:27Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction [59.064925464991056]
ソーシャルソフトアテンショングラフ畳み込みネットワーク(SSAGCN)という新しい予測モデルを提案する。 SSAGCNは、歩行者間の社会的相互作用と歩行者と環境間のシーンインタラクションを同時に扱うことを目的としている。公開データセットの実験は、SAGCNの有効性を証明し、最先端の結果を得た。
論文参考訳（メタデータ） (2021-12-05T01:49:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。