論文の概要: Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation
- arxiv url: http://arxiv.org/abs/2409.09135v1
- Date: Fri, 13 Sep 2024 18:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:09:06.794741
- Title: Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation
- Title(参考訳): 自然会話におけるエンゲージメント予測のためのLLMを用いたマルチモーダル核融合
- Authors: Cheng Charles Ma, Kevin Hyekang Joo, Alexandria K. Vail, Sunreeta Bhattacharya, Álvaro Fernández García, Kailana Baker-Matsuoka, Sheryl Mathew, Lori L. Holt, Fernando De la Torre,
- Abstract要約: 我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
- 参考スコア(独自算出の注目度): 70.52558242336988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, wearable computing devices (``smart glasses'') have undergone remarkable advancements in sensor technology, design, and processing power, ushering in a new era of opportunity for high-density human behavior data. Equipped with wearable cameras, these glasses offer a unique opportunity to analyze non-verbal behavior in natural settings as individuals interact. Our focus lies in predicting engagement in dyadic interactions by scrutinizing verbal and non-verbal cues, aiming to detect signs of disinterest or confusion. Leveraging such analyses may revolutionize our understanding of human communication, foster more effective collaboration in professional environments, provide better mental health support through empathetic virtual interactions, and enhance accessibility for those with communication barriers. In this work, we collect a dataset featuring 34 participants engaged in casual dyadic conversations, each providing self-reported engagement ratings at the end of each conversation. We introduce a novel fusion strategy using Large Language Models (LLMs) to integrate multiple behavior modalities into a ``multimodal transcript'' that can be processed by an LLM for behavioral reasoning tasks. Remarkably, this method achieves performance comparable to established fusion techniques even in its preliminary implementation, indicating strong potential for further research and optimization. This fusion method is one of the first to approach ``reasoning'' about real-world human behavior through a language model. Smart glasses provide us the ability to unobtrusively gather high-density multimodal data on human behavior, paving the way for new approaches to understanding and improving human communication with the potential for important societal benefits. The features and data collected during the studies will be made publicly available to promote further research.
- Abstract(参考訳): 過去10年間、ウェアラブルコンピューティングデバイス( ‘‘smart glasses’')は、センサー技術、設計、および処理能力において顕著な進歩を遂げてきた。
ウェアラブルカメラを搭載したこのメガネは、個人が対話する自然の環境での非言語行動を分析するユニークな機会を提供する。
我々の焦点は、不関心や混乱の兆候を検出することを目的として、言語的および非言語的手がかりを精査することで、ダイアド的相互作用におけるエンゲージメントを予測することである。
このような分析を活用すれば、人間のコミュニケーションに対する理解に革命をもたらし、プロフェッショナル環境におけるより効果的なコラボレーションを促進し、共感的な仮想相互作用を通じてより良いメンタルヘルスサポートを提供し、コミュニケーション障壁を持つ人々へのアクセシビリティを高めることができる。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象としたデータセットを収集し,各会話の最後に,それぞれが自己申告されたエンゲージメント評価を行う。
本稿では,Large Language Models (LLMs) を用いた新たな融合戦略を導入し,複数の振る舞いのモダリティをLLMで処理可能な ‘multimodal transcript'' に統合する。
この手法は, 予備実装においても確立された融合技術に匹敵する性能を達成し, さらなる研究と最適化の可能性を示している。
この融合法は、言語モデルを通して現実世界の人間の行動について 'reasoning' にアプローチした最初の1つである。
スマートグラスは、人間の行動に関する高密度なマルチモーダルデータを控えめに収集する能力を提供し、重要な社会的利益の可能性を秘め、人間のコミュニケーションを理解し改善するための新しいアプローチの道を開く。
研究期間中に収集された特徴とデータは、さらなる研究を促進するために公開されている。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - BOSS: A Benchmark for Human Belief Prediction in Object-context
Scenarios [14.23697277904244]
本稿では,人間と自律システム間の協調を促進させる手法を検討するために,心の理論(ToM)とオブジェクトコンテキスト関係(Object-Context Relations)の複合知識を利用する。
本稿では、人工知能(AI)システムによる、オブジェクトコンテキストシナリオにおける人間の信念状態の予測能力を評価するための、新しい、かつ挑戦的なマルチモーダルビデオデータセットを提案する。
論文 参考訳(メタデータ) (2022-06-21T18:29:17Z) - Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。
重要な問題は、これらの異種データをどのように融合するかです。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文 参考訳(メタデータ) (2021-03-03T12:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。