論文の概要: CMIS-Net: A Cascaded Multi-Scale Individual Standardization Network for Backchannel Agreement Estimation
- arxiv url: http://arxiv.org/abs/2510.17855v1
- Date: Wed, 15 Oct 2025 03:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.220897
- Title: CMIS-Net: A Cascaded Multi-Scale Individual Standardization Network for Backchannel Agreement Estimation
- Title(参考訳): CMIS-Net:バックチャネル合意推定のためのマルチスケール個別標準化ネットワーク
- Authors: Yuxuan Huang, Kangzhong Wang, Eugene Yujun Fu, Grace Ngai, Peter H. F. Ng,
- Abstract要約: バックチャネルは、会話における理解と合意を伝える微妙なリスナー応答である。
バックチャネルの振る舞いの表現は、しばしば個人差に大きく影響される。
本稿では,個別に正規化されたバックチャネル特徴を抽出するCMIS-Netを提案する。
- 参考スコア(独自算出の注目度): 11.099292100782884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backchannels are subtle listener responses, such as nods, smiles, or short verbal cues like "yes" or "uh-huh," which convey understanding and agreement in conversations. These signals provide feedback to speakers, improve the smoothness of interaction, and play a crucial role in developing human-like, responsive AI systems. However, the expression of backchannel behaviors is often significantly influenced by individual differences, operating across multiple scales: from instant dynamics such as response intensity (frame-level) to temporal patterns such as frequency and rhythm preferences (sequence-level). This presents a complex pattern recognition problem that contemporary emotion recognition methods have yet to fully address. Particularly, existing individualized methods in emotion recognition often operate at a single scale, overlooking the complementary nature of multi-scale behavioral cues. To address these challenges, we propose a novel Cascaded Multi-Scale Individual Standardization Network (CMIS-Net) that extracts individual-normalized backchannel features by removing person-specific neutral baselines from observed expressions. Operating at both frame and sequence levels, this normalization allows model to focus on relative changes from each person's baseline rather than absolute expression values. Furthermore, we introduce an implicit data augmentation module to address the observed training data distributional bias, improving model generalization. Comprehensive experiments and visualizations demonstrate that CMIS-Net effectively handles individual differences and data imbalance, achieving state-of-the-art performance in backchannel agreement detection.
- Abstract(参考訳): バックチャンネルは、うなずき、笑顔のような微妙なリスナーの反応や、会話における理解と合意を伝達する「yes」や「uh-huh」のような短い動詞の手がかりである。
これらの信号はスピーカーにフィードバックを与え、対話のスムーズさを改善し、人間のような応答性のあるAIシステムの開発において重要な役割を果たす。
しかしながら、バックチャネルの振る舞いの表現は、応答強度(フレームレベル)のような瞬間的ダイナミクスから、周波数やリズムの好み(シーケンスレベル)のような時間的パターンまで、複数のスケールで機能する個々の違いに大きく影響されることが多い。
これは、現代の感情認識手法がまだ十分に対応していない複雑なパターン認識問題である。
特に、感情認識における既存の個別化手法は、多スケールの行動手段の相補的な性質を見越して、1つの尺度で機能することが多い。
これらの課題に対処するために、観察された表現から個人固有の中立基線を取り除き、個々に正規化されたバックチャネル特徴を抽出する新しいカスケード型マルチスケール個別標準化ネットワーク(CMIS-Net)を提案する。
この正規化はフレームレベルとシーケンスレベルの両方で動作するため、絶対的な表現値ではなく、各人のベースラインからの相対的な変化に集中することができる。
さらに、観測されたトレーニングデータの分布バイアスに対処する暗黙的なデータ拡張モジュールを導入し、モデル一般化を改善した。
総合的な実験と可視化により、CMIS-Netは個々の差分とデータの不均衡を効果的に処理し、バックチャネル合意検出における最先端のパフォーマンスを達成することを示した。
関連論文リスト
- On Multi-entity, Multivariate Quickest Change Point Detection [2.0369245689839817]
変更点検出(CPD)は、従来のセンシング手法が実現不可能なクラウドモニタリングのアプリケーションによって動機付けられている。
本稿では,正常度からの個人偏差(IDfN)の概念を紹介し,正常度を訓練した再構成エラーベースのオートエンコーダを用いて計算する。
平均値、分散値、カーネル密度推定値(KDE)を用いてこれらの個々の偏差を集約し、システムワイド異常スコア(SWAS)を生成する。
我々の教師なしアプローチはラベル付きデータや特徴抽出の必要性を排除し、ストリーミング入力のリアルタイム操作を可能にします。
論文 参考訳(メタデータ) (2025-09-22T18:35:24Z) - CO-VADA: A Confidence-Oriented Voice Augmentation Debiasing Approach for Fair Speech Emotion Recognition [49.27067541740956]
モデルアーキテクチャの変更や人口統計情報への依存を伴わずにバイアスを緩和する信頼性指向音声強調脱バイアス手法であるCO-VADAを提案する。
CO-VADAはトレーニングデータに存在するバイアスパターンを反映したトレーニングサンプルを特定し、無関係な属性を変更してサンプルを生成するために音声変換を適用する。
我々のフレームワークは様々なSERモデルや音声変換ツールと互換性があり、SERシステムの公平性を改善するためのスケーラブルで実用的なソリューションとなっている。
論文 参考訳(メタデータ) (2025-06-06T13:25:56Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Transformer-based Self-supervised Multimodal Representation Learning for
Wearable Emotion Recognition [2.4364387374267427]
ウェアラブル感情認識のための新しい自己教師型学習(SSL)フレームワークを提案する。
本手法は様々な感情分類タスクにおいて最先端の結果を得た。
論文 参考訳(メタデータ) (2023-03-29T19:45:55Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。