論文の概要: DAT: Dialogue-Aware Transformer with Modality-Group Fusion for Human Engagement Estimation
- arxiv url: http://arxiv.org/abs/2410.08470v1
- Date: Fri, 11 Oct 2024 02:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:06:36.378111
- Title: DAT: Dialogue-Aware Transformer with Modality-Group Fusion for Human Engagement Estimation
- Title(参考訳): DAT:人間エンゲージメント推定のためのModality-Group Fusionを用いた対話認識変換器
- Authors: Jia Li, Yangchen Yu, Yin Chen, Yu Zhang, Peng Jia, Yunbo Xu, Ziqiang Li, Meng Wang, Richang Hong,
- Abstract要約: エンゲージメント推定は、人間の社会的行動を理解する上で重要な役割を果たす。
本稿では,音声視覚入力のみに依存し,言語に依存しない対話対応トランスフォーマフレームワークを提案する。
提案手法では, NoXi ベーステストセットの平均 CCC は 0.76 であり, NoXi ベース, NoXi-Add および MPIIGI テストセットの平均 CCC は 0.64 である。
- 参考スコア(独自算出の注目度): 42.87704953679693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Engagement estimation plays a crucial role in understanding human social behaviors, attracting increasing research interests in fields such as affective computing and human-computer interaction. In this paper, we propose a Dialogue-Aware Transformer framework (DAT) with Modality-Group Fusion (MGF), which relies solely on audio-visual input and is language-independent, for estimating human engagement in conversations. Specifically, our method employs a modality-group fusion strategy that independently fuses audio and visual features within each modality for each person before inferring the entire audio-visual content. This strategy significantly enhances the model's performance and robustness. Additionally, to better estimate the target participant's engagement levels, the introduced Dialogue-Aware Transformer considers both the participant's behavior and cues from their conversational partners. Our method was rigorously tested in the Multi-Domain Engagement Estimation Challenge held by MultiMediate'24, demonstrating notable improvements in engagement-level regression precision over the baseline model. Notably, our approach achieves a CCC score of 0.76 on the NoXi Base test set and an average CCC of 0.64 across the NoXi Base, NoXi-Add, and MPIIGI test sets.
- Abstract(参考訳): エンゲージメント推定は、人間の社会的行動を理解する上で重要な役割を担い、感情コンピューティングや人間とコンピュータの相互作用といった分野における研究の関心を惹きつける。
本稿では,対話における人間のエンゲージメントを推定するために,音声・視覚入力のみに依存し,言語に依存しないモダリティ・グループ・フュージョン(MGF)を用いた対話対応トランスフォーマフレームワーク(DAT)を提案する。
具体的には、音声・視覚コンテンツ全体を推測する前に、各人ごとのモーダル内での音響特徴と視覚的特徴を独立に融合するモーダル群融合戦略を用いる。
この戦略はモデルの性能と堅牢性を大幅に向上させる。
さらに、対象者のエンゲージメントレベルをより正確に推定するために、紹介された対話意識変換器は、参加者の行動と会話相手からの手がかりの両方を考慮する。
提案手法は,MultiMediate'24が実施したマルチドメインエンゲージメント推定チャレンジで厳密に検証され,ベースラインモデルに対するエンゲージメントレベル回帰精度の顕著な改善が示された。
提案手法は,NoXiベーステストセットの平均CCCスコア0.76,NoXiベース,NoXi-Add,MPIIGIテストセットの平均CCC0.64を達成する。
関連論文リスト
- A Framework for Adapting Human-Robot Interaction to Diverse User Groups [16.17512394063696]
適応型ロボットインタラクション(HRI)のための新しいフレームワークを提案する。
私たちの主な貢献は、オープンソースのコードベースを備えた適応型ROSベースのHRIフレームワークの開発です。
このフレームワークは、高度な音声認識と音声活動検出を通じて、自然な相互作用をサポートする。
論文 参考訳(メタデータ) (2024-10-15T08:16:43Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。
特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。
Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文 参考訳(メタデータ) (2024-03-20T15:08:43Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement
Estimation in Conversation [11.185293979235547]
人間のエンゲージメントをモデル化・推定するための畳み込み変換器を提案する。
提案システムはベースラインモデルを超え,テストセットの7ドル%の改善が目覚ましい。
我々は、異なるモーダル融合機構を用いて、この種のデータに対して、自己注意融合を用いた単純解法が最高の性能を得ることを示す。
論文 参考訳(メタデータ) (2023-07-31T06:02:35Z) - Human-to-Human Interaction Detection [3.00604614803979]
ヒューマン・ツー・ヒューマン・インタラクション検出(HID)という新しいタスクを導入する。
HIDは、被験者の検出、個人的行動の認識、対話的な関係に応じたグループ化に、1つのモデルで取り組みます。
まず、アクション検出のために作成された人気のあるAVAデータセットに基づいて、AVA-Interaction(AVA-I)と呼ばれる新しいHIDベンチマークを確立する。
論文 参考訳(メタデータ) (2023-07-02T03:24:58Z) - Multipar-T: Multiparty-Transformer for Capturing Contingent Behaviors in
Group Conversations [25.305521223925428]
マルチパーティビヘイビアモデリングのためのトランスモデルであるマルチパーティ・トランス (Multipar-T) を提案する。
提案手法の中核となるのはクロスパーソン・アテンション(Crossperson Attention)である。
公開されているビデオベースグループエンゲージメント検出ベンチマークにおいて,Multipar-Tの有効性を検証する。
論文 参考訳(メタデータ) (2023-04-19T20:23:11Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - Partner Matters! An Empirical Study on Fusing Personas for Personalized
Response Selection in Retrieval-Based Chatbots [51.091235903442715]
本稿では,自己とパートナーの話者が応答選択の課題に与える影響について検討する。
4つのペルソナ融合戦略が設計されており、異なる方法でペルソナがコンテキストや応答と相互作用することを前提としている。
Persona-Chatデータセットに関する実証研究は、パートナーペルソナが応答選択の精度を向上させることができることを示している。
論文 参考訳(メタデータ) (2021-05-19T10:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。