Fugu-MT 論文翻訳(概要): Predicting Mood Disorder Symptoms with Remotely Collected Videos Using an Interpretable Multimodal Dynamic Attention Fusion Network

論文の概要: Predicting Mood Disorder Symptoms with Remotely Collected Videos Using an Interpretable Multimodal Dynamic Attention Fusion Network

arxiv url: http://arxiv.org/abs/2109.03029v1
Date: Tue, 7 Sep 2021 12:13:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-08 14:31:42.827422
Title: Predicting Mood Disorder Symptoms with Remotely Collected Videos Using an Interpretable Multimodal Dynamic Attention Fusion Network
Title（参考訳）: マルチモーダル動的注意融合ネットワークを用いた遠隔映像による気分障害症状の予測
Authors: Tathagata Banerjee, Matthew Kollada, Pablo Gersberg, Oscar Rodriguez, Jane Tiller, Andrew E Jaffe, John Reynders
Abstract要約: 気分障害の症状を識別する新しい多モーダル分類法を開発した。スマートフォンアプリケーションから収集した音声、ビデオ、テキストを使用しました。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We developed a novel, interpretable multimodal classification method to identify symptoms of mood disorders viz. depression, anxiety and anhedonia using audio, video and text collected from a smartphone application. We used CNN-based unimodal encoders to learn dynamic embeddings for each modality and then combined these through a transformer encoder. We applied these methods to a novel dataset - collected by a smartphone application - on 3002 participants across up to three recording sessions. Our method demonstrated better multimodal classification performance compared to existing methods that employed static embeddings. Lastly, we used SHapley Additive exPlanations (SHAP) to prioritize important features in our model that could serve as potential digital markers.
Abstract（参考訳）: 気分障害の症状を識別するための新しい解釈可能なマルチモーダル分類法vizを開発した。スマートフォンアプリケーションから収集した音声、ビデオ、テキストを使用した抑うつ、不安、不安。我々はCNNをベースとしたユニモーダルエンコーダを用いて各モードの動的埋め込みを学習し,それらをトランスエンコーダで組み合わせた。これらの手法を,スマートフォンアプリケーションによって収集された新たなデータセットに,最大3回の録画セッションで3002名の参加者に適用した。静的埋め込みを用いた既存手法と比較して, マルチモーダル分類性能が向上した。最後に、私たちはSHAP(SHapley Additive exPlanations)を使用して、潜在的なデジタルマーカーとして機能するモデルの重要な機能を優先順位付けしました。

関連論文リスト

Context-Aware Deep Learning for Multi Modal Depression Detection [41.02897689721331]
マルチモーダル機械学習(ML)を用いた臨床面接からうつ病を自動的に検出するアプローチに焦点をあてる。本研究では,(1)テキストデータに対するトピックモデリングに基づくデータ拡張と,(2)音響特徴モデリングのための深部1次元畳み込みニューラルネットワーク(CNN)を組み合わせた新しい手法を提案する。我々のディープ1D CNNとトランスフォーマーモデルはそれぞれ、オーディオとテキストのモダリティの最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-12-26T13:19:26Z)
Learned Multimodal Compression for Autonomous Driving [4.14360329494344]
本研究では,3次元物体検出を対象とする自律走行のための学習されたマルチモーダル圧縮について検討する。 1つのアプローチは、融合したモダリティのジョイントコーディングであり、もう1つは、1つのモダリティを最初にコーディングし、もう1つのモダリティを条件付きコーディングする。実験結果から,融解モダリティの結合符号化により,代替品よりも良好な結果が得られることが示された。
論文参考訳（メタデータ） (2024-08-15T15:20:55Z)
VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文参考訳（メタデータ） (2024-07-08T18:12:49Z)
Purposer: Putting Human Motion Generation in Context [30.706219830149504]
本研究では,3次元屋内シーンに人間の動きを再現する新しい手法を提案する。シーン内のパス、ターゲットポーズ、過去の動き、そして3Dポイントの雲として表されるシーンなど、様々な条件信号の組み合わせで制御できる。
論文参考訳（メタデータ） (2024-04-19T15:16:04Z)
SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文参考訳（メタデータ） (2024-04-08T05:19:28Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文参考訳（メタデータ） (2023-04-14T03:25:00Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)
MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文参考訳（メタデータ） (2022-03-14T13:15:09Z)
Multimodal Depression Classification Using Articulatory Coordination Features And Hierarchical Attention Based Text Embeddings [4.050982413149992]
声道変数とテキストの書き起こしから抽出した動脈協調機能を用いたマルチモーダルうつ病分類システムを開発した。このシステムはセッションレベルの音声モデルとHANテキストモデルからの埋め込みを組み合わせることで開発される。
論文参考訳（メタデータ） (2022-02-13T07:37:09Z)
Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文参考訳（メタデータ） (2020-06-29T17:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。