Fugu-MT 論文翻訳(概要): DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement Estimation in Conversation

論文の概要: DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement Estimation in Conversation

arxiv url: http://arxiv.org/abs/2308.01966v1
Date: Mon, 31 Jul 2023 06:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-14 02:08:21.002529
Title: DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement Estimation in Conversation
Title（参考訳）: DCTM:多モーダルエンゲージメント推定のための拡張畳み込み変圧器モデル
Authors: Vu Ngoc Tu, Van Thong Huynh, Hyung-Jeong Yang, M. Zaigham Zaheer, Shah Nawaz, Karthik Nandakumar, Soo-Hyung Kim
Abstract要約: 人間のエンゲージメントをモデル化・推定するための畳み込み変換器を提案する。提案システムはベースラインモデルを超え,テストセットの7ドル%の改善が目覚ましい。我々は、異なるモーダル融合機構を用いて、この種のデータに対して、自己注意融合を用いた単純解法が最高の性能を得ることを示す。
参考スコア（独自算出の注目度）: 11.185293979235547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conversational engagement estimation is posed as a regression problem, entailing the identification of the favorable attention and involvement of the participants in the conversation. This task arises as a crucial pursuit to gain insights into human's interaction dynamics and behavior patterns within a conversation. In this research, we introduce a dilated convolutional Transformer for modeling and estimating human engagement in the MULTIMEDIATE 2023 competition. Our proposed system surpasses the baseline models, exhibiting a noteworthy $7$\% improvement on test set and $4$\% on validation set. Moreover, we employ different modality fusion mechanism and show that for this type of data, a simple concatenated method with self-attention fusion gains the best performance.
Abstract（参考訳）: 会話の係り合いの推定は、会話の参加者の好意的な注意と関与の特定を含む回帰問題として提案される。この課題は、会話の中の人間の相互作用のダイナミクスと行動パターンについての洞察を得るための重要な追求として生じる。本研究では,MultiMEDIATE 2023コンペティションにおける人間のエンゲージメントをモデル化・推定するための拡張畳み込み変換器を提案する。提案するシステムはベースラインモデルを上回っており,テストセットでは$$$%,検証セットでは$$$$%の改善が注目される。さらに,異なるモーダリティ融合機構を用い,このようなデータに対して,自己結合融合を用いた単純な連結法が最適性能を得ることを示す。

関連論文リスト

Dynamic Multimodal Sentiment Analysis: Leveraging Cross-Modal Attention for Enabled Classification [0.0]
マルチモーダル感情分析モデルは、感情分類を強化するために、テキスト、音声、視覚データを統合します。研究は,後期核融合,早期核融合,多面的注意の3つの特徴核融合戦略を評価する。プロセスの初期にモダリティを統合することで感情分類が促進され、注意機構が現在のフレームワークに限られた影響を与える可能性があることが示唆されている。
論文参考訳（メタデータ） (2025-01-14T12:54:19Z)
MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文参考訳（メタデータ） (2024-10-12T07:02:33Z)
DAT: Dialogue-Aware Transformer with Modality-Group Fusion for Human Engagement Estimation [42.87704953679693]
エンゲージメント推定は、人間の社会的行動を理解する上で重要な役割を果たす。本稿では,音声視覚入力のみに依存し,言語に依存しない対話対応トランスフォーマフレームワークを提案する。提案手法では, NoXi ベーステストセットの平均 CCC は 0.76 であり, NoXi ベース, NoXi-Add および MPIIGI テストセットの平均 CCC は 0.64 である。
論文参考訳（メタデータ） (2024-10-11T02:43:45Z)
Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文参考訳（メタデータ） (2024-03-20T15:08:43Z)
MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。 11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文参考訳（メタデータ） (2024-01-30T04:50:28Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Joint-Relation Transformer for Multi-Person Motion Prediction [79.08243886832601]
相互作用モデリングの強化を目的とした結合関係変換器を提案する。提案手法は3DPW-SoMoF/RCで900ms VIMを13.4%改善し, 3s MPJPEで17.8%/12.0%改善した。
論文参考訳（メタデータ） (2023-08-09T09:02:47Z)
A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition [54.44337276044968]
低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。 LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
論文参考訳（メタデータ） (2023-06-16T16:02:44Z)
Emotional Reaction Intensity Estimation Based on Multimodal Data [24.353102762289545]
本稿では,感情反応強度(ERI)推定法について紹介する。発声器が提供するマルチモーダルデータに基づいて,事前学習した異なるモデルを用いて,音響的特徴と視覚的特徴を抽出する。
論文参考訳（メタデータ） (2023-03-16T09:14:47Z)
A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文参考訳（メタデータ） (2022-07-10T23:31:27Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)
Hybrid Supervised Reinforced Model for Dialogue Systems [2.1485350418225244]
このモデルは,対話管理に必要なタスク – 状態追跡と意思決定 – に対処する。このモデルは、非リカレントベースラインよりも高い性能、学習速度、堅牢性を達成する。
論文参考訳（メタデータ） (2020-11-04T12:03:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。