論文の概要: Predicting Mood Disorder Symptoms with Remotely Collected Videos Using
an Interpretable Multimodal Dynamic Attention Fusion Network
- arxiv url: http://arxiv.org/abs/2109.03029v1
- Date: Tue, 7 Sep 2021 12:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 14:31:42.827422
- Title: Predicting Mood Disorder Symptoms with Remotely Collected Videos Using
an Interpretable Multimodal Dynamic Attention Fusion Network
- Title(参考訳): マルチモーダル動的注意融合ネットワークを用いた遠隔映像による気分障害症状の予測
- Authors: Tathagata Banerjee, Matthew Kollada, Pablo Gersberg, Oscar Rodriguez,
Jane Tiller, Andrew E Jaffe, John Reynders
- Abstract要約: 気分障害の症状を識別する新しい多モーダル分類法を開発した。
スマートフォンアプリケーションから収集した音声、ビデオ、テキストを使用しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We developed a novel, interpretable multimodal classification method to
identify symptoms of mood disorders viz. depression, anxiety and anhedonia
using audio, video and text collected from a smartphone application. We used
CNN-based unimodal encoders to learn dynamic embeddings for each modality and
then combined these through a transformer encoder. We applied these methods to
a novel dataset - collected by a smartphone application - on 3002 participants
across up to three recording sessions. Our method demonstrated better
multimodal classification performance compared to existing methods that
employed static embeddings. Lastly, we used SHapley Additive exPlanations
(SHAP) to prioritize important features in our model that could serve as
potential digital markers.
- Abstract(参考訳): 気分障害の症状を識別するための新しい解釈可能なマルチモーダル分類法vizを開発した。
スマートフォンアプリケーションから収集した音声、ビデオ、テキストを使用した抑うつ、不安、不安。
我々はCNNをベースとしたユニモーダルエンコーダを用いて各モードの動的埋め込みを学習し,それらをトランスエンコーダで組み合わせた。
これらの手法を,スマートフォンアプリケーションによって収集された新たなデータセットに,最大3回の録画セッションで3002名の参加者に適用した。
静的埋め込みを用いた既存手法と比較して, マルチモーダル分類性能が向上した。
最後に、私たちはSHAP(SHapley Additive exPlanations)を使用して、潜在的なデジタルマーカーとして機能するモデルの重要な機能を優先順位付けしました。
関連論文リスト
- Learned Multimodal Compression for Autonomous Driving [4.14360329494344]
本研究では,3次元物体検出を対象とする自律走行のための学習されたマルチモーダル圧縮について検討する。
1つのアプローチは、融合したモダリティのジョイントコーディングであり、もう1つは、1つのモダリティを最初にコーディングし、もう1つのモダリティを条件付きコーディングする。
実験結果から,融解モダリティの結合符号化により,代替品よりも良好な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-08-15T15:20:55Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Purposer: Putting Human Motion Generation in Context [30.706219830149504]
本研究では,3次元屋内シーンに人間の動きを再現する新しい手法を提案する。
シーン内のパス、ターゲットポーズ、過去の動き、そして3Dポイントの雲として表されるシーンなど、様々な条件信号の組み合わせで制御できる。
論文 参考訳(メタデータ) (2024-04-19T15:16:04Z) - SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - Multimodal Depression Classification Using Articulatory Coordination
Features And Hierarchical Attention Based Text Embeddings [4.050982413149992]
声道変数とテキストの書き起こしから抽出した動脈協調機能を用いたマルチモーダルうつ病分類システムを開発した。
このシステムはセッションレベルの音声モデルとHANテキストモデルからの埋め込みを組み合わせることで開発される。
論文 参考訳(メタデータ) (2022-02-13T07:37:09Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。