論文の概要: DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement
Estimation in Conversation
- arxiv url: http://arxiv.org/abs/2308.01966v1
- Date: Mon, 31 Jul 2023 06:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 02:08:21.002529
- Title: DCTM: Dilated Convolutional Transformer Model for Multimodal Engagement
Estimation in Conversation
- Title(参考訳): DCTM:多モーダルエンゲージメント推定のための拡張畳み込み変圧器モデル
- Authors: Vu Ngoc Tu, Van Thong Huynh, Hyung-Jeong Yang, M. Zaigham Zaheer, Shah
Nawaz, Karthik Nandakumar, Soo-Hyung Kim
- Abstract要約: 人間のエンゲージメントをモデル化・推定するための畳み込み変換器を提案する。
提案システムはベースラインモデルを超え,テストセットの7ドル%の改善が目覚ましい。
我々は、異なるモーダル融合機構を用いて、この種のデータに対して、自己注意融合を用いた単純解法が最高の性能を得ることを示す。
- 参考スコア(独自算出の注目度): 11.185293979235547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversational engagement estimation is posed as a regression problem,
entailing the identification of the favorable attention and involvement of the
participants in the conversation. This task arises as a crucial pursuit to gain
insights into human's interaction dynamics and behavior patterns within a
conversation. In this research, we introduce a dilated convolutional
Transformer for modeling and estimating human engagement in the MULTIMEDIATE
2023 competition. Our proposed system surpasses the baseline models, exhibiting
a noteworthy $7$\% improvement on test set and $4$\% on validation set.
Moreover, we employ different modality fusion mechanism and show that for this
type of data, a simple concatenated method with self-attention fusion gains the
best performance.
- Abstract(参考訳): 会話の係り合いの推定は、会話の参加者の好意的な注意と関与の特定を含む回帰問題として提案される。
この課題は、会話の中の人間の相互作用のダイナミクスと行動パターンについての洞察を得るための重要な追求として生じる。
本研究では,MultiMEDIATE 2023コンペティションにおける人間のエンゲージメントをモデル化・推定するための拡張畳み込み変換器を提案する。
提案するシステムはベースラインモデルを上回っており,テストセットでは$$$%,検証セットでは$$$$%の改善が注目される。
さらに,異なるモーダリティ融合機構を用い,このようなデータに対して,自己結合融合を用いた単純な連結法が最適性能を得ることを示す。
関連論文リスト
- MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Joint-Relation Transformer for Multi-Person Motion Prediction [79.08243886832601]
相互作用モデリングの強化を目的とした結合関係変換器を提案する。
提案手法は3DPW-SoMoF/RCで900ms VIMを13.4%改善し, 3s MPJPEで17.8%/12.0%改善した。
論文 参考訳(メタデータ) (2023-08-09T09:02:47Z) - HIINT: Historical, Intra- and Inter- personal Dynamics Modeling with
Cross-person Memory Transformer [38.92436852096451]
クロスパーソンメモリトランスフォーマー(CPM-T)フレームワークは、感情力学を明示的にモデル化することができる。
CPM-Tフレームワークはメモリモジュールを維持し、会話ウィンドウ内のコンテキストを保存および更新する。
共同作業,ラップポート,人的信念予測の3つの公開データセットに対して,提案手法の有効性と一般化性を評価する。
論文 参考訳(メタデータ) (2023-05-21T06:43:35Z) - Emotional Reaction Intensity Estimation Based on Multimodal Data [24.353102762289545]
本稿では,感情反応強度(ERI)推定法について紹介する。
発声器が提供するマルチモーダルデータに基づいて,事前学習した異なるモデルを用いて,音響的特徴と視覚的特徴を抽出する。
論文 参考訳(メタデータ) (2023-03-16T09:14:47Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Hybrid Supervised Reinforced Model for Dialogue Systems [2.1485350418225244]
このモデルは,対話管理に必要なタスク – 状態追跡と意思決定 – に対処する。
このモデルは、非リカレントベースラインよりも高い性能、学習速度、堅牢性を達成する。
論文 参考訳(メタデータ) (2020-11-04T12:03:12Z) - CNRL at SemEval-2020 Task 5: Modelling Causal Reasoning in Language with
Multi-Head Self-Attention Weights based Counterfactual Detection [0.15229257192293202]
我々は、事前学習されたトランスフォーマーモデルを用いて、テキストからコンテキスト埋め込みと自己注意重みを抽出する。
これらの自己注意重みからタスク固有の特徴を抽出するために畳み込み層を用いることを示す。
論文 参考訳(メタデータ) (2020-05-31T21:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。