論文の概要: Generalizable Engagement Estimation in Conversation via Domain Prompting and Parallel Attention
- arxiv url: http://arxiv.org/abs/2508.14448v1
- Date: Wed, 20 Aug 2025 06:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.355232
- Title: Generalizable Engagement Estimation in Conversation via Domain Prompting and Parallel Attention
- Title(参考訳): ドメインプロンプトと並列アテンションによる会話における一般化可能なエンゲージメント推定
- Authors: Yangche Yu, Yin Chen, Jia Li, Peng Jia, Yu Zhang, Li Dai, Zhenzhen Hu, Meng Wang, Richang Hong,
- Abstract要約: 本稿では, DAPA(Domain-Adaptive Parallel Attention)を提案する。
DAPAは、学習可能なドメイン固有ベクトルを入力に先延ばしすることで、Domain Promptingメカニズムを導入する。
インタラクションの同期をキャプチャするために、Parallel Cross-Attentionモジュールも組み込まれている。
- 参考スコア(独自算出の注目度): 44.47779807499202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate engagement estimation is essential for adaptive human-computer interaction systems, yet robust deployment is hindered by poor generalizability across diverse domains and challenges in modeling complex interaction dynamics.To tackle these issues, we propose DAPA (Domain-Adaptive Parallel Attention), a novel framework for generalizable conversational engagement modeling. DAPA introduces a Domain Prompting mechanism by prepending learnable domain-specific vectors to the input, explicitly conditioning the model on the data's origin to facilitate domain-aware adaptation while preserving generalizable engagement representations. To capture interactional synchrony, the framework also incorporates a Parallel Cross-Attention module that explicitly aligns reactive (forward BiLSTM) and anticipatory (backward BiLSTM) states between participants.Extensive experiments demonstrate that DAPA establishes a new state-of-the-art performance on several cross-cultural and cross-linguistic benchmarks, notably achieving an absolute improvement of 0.45 in Concordance Correlation Coefficient (CCC) over a strong baseline on the NoXi-J test set. The superiority of our method was also confirmed by winning the first place in the Multi-Domain Engagement Estimation Challenge at MultiMediate'25.
- Abstract(参考訳): 適応型人間-コンピュータインタラクションシステムには正確なエンゲージメント推定が不可欠であるが,多種多様なドメイン間の一般化性の低下や,複雑なインタラクションダイナミクスをモデル化する上での課題により,ロバストなデプロイメントが妨げられ,これらの問題に対処するために,汎用的な会話エンゲージメントモデリングのための新しいフレームワークであるDAPA(Domain-Adaptive Parallel Attention)を提案する。
DAPAは、学習可能なドメイン固有ベクトルを入力に先取りし、データの起源にモデルを明示的に条件付け、一般化可能なエンゲージメント表現を保持しながらドメイン認識適応を容易にするドメインプロンプト機構を導入している。
相互作用の同期を捉えるために、このフレームワークには、リアクティブ(前向きのBiLSTM)と予測(後向きのBiLSTM)状態を参加者間で明示的に整列するパラレルクロスアテンションモジュールも組み込まれており、DAPAがいくつかの異文化間および言語間ベンチマークで新しい最先端のパフォーマンスを確立し、特にNoXi-Jテストセットの強いベースラインに対するコンコーダンス相関係数(CCC)の0.45の絶対的な改善を実現している。
また,MultiMediate'25のマルチドメインエンゲージメント推定チャレンジで初優勝し,本手法の優位性を確認した。
関連論文リスト
- DSDRNet: Disentangling Representation and Reconstruct Network for Domain Generalization [26.19333812906363]
本稿ではDSDRNetと呼ばれるデュアルストリーム分離再構成ネットワークを提案する。
これは、二重ストリーム融合を通じて、インスタンス間およびインスタンス内両方の特徴を統合する、アンタングルメント・リコンストラクションのアプローチである。
4つのベンチマークデータセットの実験により、DSDRNetはドメインの一般化能力において他の一般的なメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-22T03:15:42Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Spatio-Temporal Domain Awareness for Multi-Agent Collaborative
Perception [18.358998861454477]
車両間通信の潜在的な応用としてのマルチエージェント協調認識は、単一エージェント認識よりも自律走行車の性能知覚を著しく向上させる可能性がある。
本稿では,エージェント間の認識特性をエンドツーエンドに集約する新しい協調認識フレームワークSCOPEを提案する。
論文 参考訳(メタデータ) (2023-07-26T03:00:31Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Dual Attentive Sequential Learning for Cross-Domain Click-Through Rate
Prediction [76.98616102965023]
クロスドメインレコメンダシステムは、コールドスタートとスパシティの問題に対処するための強力な方法である。
本稿では,二元学習機構に基づくクロスドメインシーケンシャルなレコメンデーション手法を提案する。
論文 参考訳(メタデータ) (2021-06-05T01:21:21Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。