論文の概要: WEE-Therapy: A Mixture of Weak Encoders Framework for Psychological Counseling Dialogue Analysis
- arxiv url: http://arxiv.org/abs/2510.02320v1
- Date: Wed, 24 Sep 2025 05:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-12 15:03:05.767587
- Title: WEE-Therapy: A Mixture of Weak Encoders Framework for Psychological Counseling Dialogue Analysis
- Title(参考訳): WEE-Therapy:心理学的対話分析のための弱エンコーダフレームワークの混合
- Authors: Yongqi Kang, Yong Zhao,
- Abstract要約: Weak Ensemble機構を組み込んだマルチタスクオーディオLLMであるWEE-Therapyを提案する。
新たなデュアルルーティング戦略は、安定的でデータに依存しないドメイン知識と、動的でデータに依存しない専門家選択を組み合わせたものだ。
We show that WEE-Therapy achieve significant performance gains across all task with least parameters overhead。
- 参考スコア(独自算出の注目度): 2.939912115560487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of computational psychology requires AI tools capable of deeply understanding counseling dialogues. Existing audio language models (AudioLLMs) often rely on single speech encoders pre-trained on general data, struggling to capture domain-specific features like complex emotions and professional techniques. To address this, we propose WEE-Therapy, a multi-task AudioLLM incorporating a Weak Encoder Ensemble (WEE) mechanism. This supplements a powerful base encoder with a pool of lightweight, specialized encoders. A novel dual-routing strategy combines stable, data-independent domain knowledge with dynamic, data-dependent expert selection. Evaluated on emotion recognition, technique classification, risk detection, and summarization, WEE-Therapy achieves significant performance gains across all tasks with minimal parameter overhead, demonstrating strong potential for AI-assisted clinical analysis.
- Abstract(参考訳): 計算心理学の進歩には、カウンセリング対話を深く理解できるAIツールが必要である。
既存の音声言語モデル(AudioLLMs)は、一般的なデータに基づいて事前訓練された単一の音声エンコーダに依存しており、複雑な感情や専門技術のようなドメイン固有の特徴を捉えるのに苦労する。
そこで本研究では,Weak Encoder Ensemble(WEE)機構を組み込んだマルチタスクオーディオLLMであるWEE-Therapyを提案する。
これは、軽量で特殊なエンコーダのプールを備えた強力なベースエンコーダを補う。
新たなデュアルルーティング戦略は、安定的でデータに依存しないドメイン知識と、動的でデータに依存しない専門家選択を組み合わせたものだ。
WEE-Therapyは、感情認識、テクニック分類、リスク検出、要約に基づいて、パラメータオーバーヘッドを最小限に抑え、AI支援臨床分析の強力な可能性を示す。
関連論文リスト
- Multi-Modal Sentiment Analysis with Dynamic Attention Fusion [0.0]
本稿では,事前学習した言語モデルからの凍結したテキスト埋め込みと音声エンコーダの音響的特徴を組み合わせた軽量フレームワークである動的注意融合(DAF)を紹介する。
提案するDAFモデルは,大規模なマルチモーダルベンチマークにおいて,静的核融合と非モードベースラインの両方を一貫して上回っている。
言語情報と非言語情報を効果的に統合することにより、我々のアプローチは感情予測のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2025-09-25T09:54:04Z) - Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。
我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文 参考訳(メタデータ) (2025-05-05T02:31:11Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction [6.1058750788332325]
第6回ワークショップおよび感情行動分析コンペティションの一環として,情緒的不安度(EMI)を評価するための新しい方法論を紹介した。
我々の手法は、広範囲なポッドキャストデータセットで事前トレーニングされたWav2Vec 2.0アーキテクチャを活用している。
我々は,個々の特徴をグローバル平均ベクトルと組み合わせた融合手法を用いて特徴抽出プロセスを洗練する。
論文 参考訳(メタデータ) (2024-03-18T15:32:02Z) - Speaker-Guided Encoder-Decoder Framework for Emotion Recognition in
Conversation [23.93696773727978]
会話における感情認識は,会話中の発話の感情ラベルを予測することを目的としている。
動的に話者内および話者間依存関係を協調的に探索する新しい話者モデリング手法を設計する。
また、感情の復号化に話者情報を完全に活用する、ERCのための話者ガイドデコーダ(SGED)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-07T10:51:47Z) - Speech Emotion Recognition with Co-Attention based Multi-level Acoustic
Information [21.527784717450885]
音声感情認識は、人間の主観的感情を音声情報のみから理解することを目的としている。
マルチレベル音響情報を用いたエンドツーエンドの音声感情認識システムを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:17:28Z) - TagLab: A human-centric AI system for interactive semantic segmentation [63.84619323110687]
TagLabは、大規模な画像に注釈をつけるための、オープンソースのAI支援ソフトウェアである。
画像アノテーションをスクラッチから支援ツールを通じてスピードアップし、カスタムの完全自動セマンティックセグメンテーションモデルを作成し、自動予測の迅速な編集を可能にする。
研究結果は,海洋生態学と建築遺産の2つの異なるシナリオで報告した。
論文 参考訳(メタデータ) (2021-12-23T16:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。