論文の概要: DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement
Estimation in Conversation
- arxiv url: http://arxiv.org/abs/2308.01966v1
- Date: Mon, 31 Jul 2023 06:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 02:08:21.002529
- Title: DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement
Estimation in Conversation
- Title(参考訳): DCTM:多モーダルエンゲージメント推定のための拡張畳み込み変圧器モデル
- Authors: Vu Ngoc Tu, Van Thong Huynh, Hyung-Jeong Yang, M. Zaigham Zaheer, Shah
Nawaz, Karthik Nandakumar, Soo-Hyung Kim
- Abstract要約: 人間のエンゲージメントをモデル化・推定するための畳み込み変換器を提案する。
提案システムはベースラインモデルを超え,テストセットの7ドル%の改善が目覚ましい。
我々は、異なるモーダル融合機構を用いて、この種のデータに対して、自己注意融合を用いた単純解法が最高の性能を得ることを示す。
- 参考スコア(独自算出の注目度): 11.185293979235547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational engagement estimation is posed as a regression problem,
entailing the identification of the favorable attention and involvement of the
participants in the conversation. This task arises as a crucial pursuit to gain
insights into human's interaction dynamics and behavior patterns within a
conversation. In this research, we introduce a dilated convolutional
Transformer for modeling and estimating human engagement in the MULTIMEDIATE
2023 competition. Our proposed system surpasses the baseline models, exhibiting
a noteworthy $7$\% improvement on test set and $4$\% on validation set.
Moreover, we employ different modality fusion mechanism and show that for this
type of data, a simple concatenated method with self-attention fusion gains the
best performance.
- Abstract(参考訳): 会話の係り合いの推定は、会話の参加者の好意的な注意と関与の特定を含む回帰問題として提案される。
この課題は、会話の中の人間の相互作用のダイナミクスと行動パターンについての洞察を得るための重要な追求として生じる。
本研究では,MultiMEDIATE 2023コンペティションにおける人間のエンゲージメントをモデル化・推定するための拡張畳み込み変換器を提案する。
提案するシステムはベースラインモデルを上回っており,テストセットでは$$$%,検証セットでは$$$$%の改善が注目される。
さらに,異なるモーダリティ融合機構を用い,このようなデータに対して,自己結合融合を用いた単純な連結法が最適性能を得ることを示す。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - DAT: Dialogue-Aware Transformer with Modality-Group Fusion for Human Engagement Estimation [42.87704953679693]
エンゲージメント推定は、人間の社会的行動を理解する上で重要な役割を果たす。
本稿では,音声視覚入力のみに依存し,言語に依存しない対話対応トランスフォーマフレームワークを提案する。
提案手法では, NoXi ベーステストセットの平均 CCC は 0.76 であり, NoXi ベース, NoXi-Add および MPIIGI テストセットの平均 CCC は 0.64 である。
論文 参考訳(メタデータ) (2024-10-11T02:43:45Z) - Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。
特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。
Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文 参考訳(メタデータ) (2024-03-20T15:08:43Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Joint-Relation Transformer for Multi-Person Motion Prediction [79.08243886832601]
相互作用モデリングの強化を目的とした結合関係変換器を提案する。
提案手法は3DPW-SoMoF/RCで900ms VIMを13.4%改善し, 3s MPJPEで17.8%/12.0%改善した。
論文 参考訳(メタデータ) (2023-08-09T09:02:47Z) - A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition [54.44337276044968]
低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。
LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。
実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
論文 参考訳(メタデータ) (2023-06-16T16:02:44Z) - Emotional Reaction Intensity Estimation Based on Multimodal Data [24.353102762289545]
本稿では,感情反応強度(ERI)推定法について紹介する。
発声器が提供するマルチモーダルデータに基づいて,事前学習した異なるモデルを用いて,音響的特徴と視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2023-03-16T09:14:47Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Hybrid Supervised Reinforced Model for Dialogue Systems [2.1485350418225244]
このモデルは,対話管理に必要なタスク – 状態追跡と意思決定 – に対処する。
このモデルは、非リカレントベースラインよりも高い性能、学習速度、堅牢性を達成する。
論文 参考訳(メタデータ) (2020-11-04T12:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。