論文の概要: Empathy Level Prediction in Multi-Modal Scenario with Supervisory Documentation Assistance
- arxiv url: http://arxiv.org/abs/2512.02558v1
- Date: Tue, 02 Dec 2025 09:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.806263
- Title: Empathy Level Prediction in Multi-Modal Scenario with Supervisory Documentation Assistance
- Title(参考訳): 管理者ドキュメンテーション支援によるマルチモーダルシナリオの共感レベル予測
- Authors: Yufei Xiao, Shangfei Wang,
- Abstract要約: 本稿では,映像,音声,テキスト情報を統合した高度なマルチモーダル共感予測手法を提案する。
マルチモーダル共感予測および監視ドキュメント支援訓練を含む。
テキストの特徴の抽出を強化するため,補助訓練期間中に,監督文書を特権情報として取り入れた。
- 参考スコア(独自算出の注目度): 8.704084313195887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prevalent empathy prediction techniques primarily concentrate on a singular modality, typically textual, thus neglecting multi-modal processing capabilities. They also overlook the utilization of certain privileged information, which may encompass additional empathetic content. In response, we introduce an advanced multi-modal empathy prediction method integrating video, audio, and text information. The method comprises the Multi-Modal Empathy Prediction and Supervisory Documentation Assisted Training. We use pre-trained networks in the empathy prediction network to extract features from various modalities, followed by a cross-modal fusion. This process yields a multi-modal feature representation, which is employed to predict empathy labels. To enhance the extraction of text features, we incorporate supervisory documents as privileged information during the assisted training phase. Specifically, we apply the Latent Dirichlet Allocation model to identify potential topic distributions to constrain text features. These supervisory documents, created by supervisors, focus on the counseling topics and the counselor's display of empathy. Notably, this privileged information is only available during training and is not accessible during the prediction phase. Experimental results on the multi-modal and dialogue empathy datasets demonstrate that our approach is superior to the existing methods.
- Abstract(参考訳): 一般的な共感予測技術は、主に特異なモダリティ(典型的にはテキスト)に集中するため、マルチモーダル処理能力を無視する。
彼らはまた、追加の共感的内容を含む可能性のある特権情報の利用も見落としている。
そこで本研究では,映像,音声,テキスト情報を統合した高度なマルチモーダル共感予測手法を提案する。
マルチモーダル共感予測および監視ドキュメント支援訓練を含む。
我々は,共感予測ネットワークにおける事前学習ネットワークを用いて,様々なモダリティから特徴を抽出し,その後にクロスモーダル融合を行う。
このプロセスは、共感ラベルを予測するために使用されるマルチモーダルな特徴表現を生成する。
テキストの特徴の抽出を強化するため,補助訓練期間中に,監督文書を特権情報として取り入れた。
具体的には、テキストの特徴を制約する潜在的トピック分布を特定するために、潜在ディリクレ割当モデルを適用する。
これらの監督文書は、監督官によって作成され、カウンセリングのトピックとカウンセラーの共感の表示に焦点を当てている。
特に、この特権情報はトレーニング中のみ利用可能であり、予測フェーズではアクセスできない。
マルチモーダル・対話型共感データセットの実験結果から,本手法が既存手法よりも優れていることが示された。
関連論文リスト
- Generative Compositor for Few-Shot Visual Information Extraction [60.663887314625164]
生成空間モデルとして生成空間モデル(Generative Generative Spacetor)を提案する。
ジェネレーティブジェネレーター(Generative Generative Spacetor)は、ソーステキストから単語を検索することでコンポジタの操作をエミュレートするハイブリッドポインタージェネレータネットワークである。
提案手法は,1ショット,5ショット,10ショットの設定において,ベースラインを上回りながら,フルサンプルトレーニングにおいて高い競争力を発揮する。
論文 参考訳(メタデータ) (2025-03-21T04:56:24Z) - MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval [26.585985828583304]
我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training [11.129868018236445]
VQA(Visual Question Answering)をマルチモーダル・プレトレーニングに利用して,対象とする病態の特徴に着目したフレームワークのガイドを行う。
また,視覚的特徴をテキスト領域に近い準テキスト空間に変換するためのモジュールである準テキスト特徴変換器を用いた新しい事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-30T02:56:54Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文 参考訳(メタデータ) (2022-11-23T14:40:51Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Understanding Multimodal Procedural Knowledge by Sequencing Multimodal
Instructional Manuals [48.55362590292391]
我々は、順序のないマルチモーダル命令を推論し、シーケンシングする機械学習モデルの能力をベンチマークする。
モデルの性能は人間より著しく劣るだけでなく、マルチモーダル情報の有効利用も不可能である。
本稿では,テキストと画像の逐次アライメント特性を利用した逐次性を考慮した事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-16T06:12:15Z) - Pretext Tasks selection for multitask self-supervised speech
representation learning [23.39079406674442]
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
話者認識と自動音声認識の実験により,我々のアプローチが検証された。
論文 参考訳(メタデータ) (2021-07-01T16:36:29Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。