論文の概要: Enhancing Apparent Personality Trait Analysis with Cross-Modal Embeddings
- arxiv url: http://arxiv.org/abs/2405.03846v1
- Date: Mon, 6 May 2024 20:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 16:07:44.155463
- Title: Enhancing Apparent Personality Trait Analysis with Cross-Modal Embeddings
- Title(参考訳): クロスモーダル・エンベディングによるパーソナリティ・トランジット分析の強化
- Authors: Ádám Fodor, Rachid R. Saboundji, András Lőrincz,
- Abstract要約: 本稿では,ショートビデオ記録で訓練した人格特性予測のために,シームズ拡張を用いたマルチモーダルディープニューラルネットワークを提案する。
分析されたデータセットの高度に集中したターゲット分布のため、第3桁の変更は関連している。
- 参考スコア(独自算出の注目度): 0.5461938536945723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic personality trait assessment is essential for high-quality human-machine interactions. Systems capable of human behavior analysis could be used for self-driving cars, medical research, and surveillance, among many others. We present a multimodal deep neural network with a Siamese extension for apparent personality trait prediction trained on short video recordings and exploiting modality invariant embeddings. Acoustic, visual, and textual information are utilized to reach high-performance solutions in this task. Due to the highly centralized target distribution of the analyzed dataset, the changes in the third digit are relevant. Our proposed method addresses the challenge of under-represented extreme values, achieves 0.0033 MAE average improvement, and shows a clear advantage over the baseline multimodal DNN without the introduced module.
- Abstract(参考訳): 人的特性の自動評価は、高品質な人間と機械の相互作用に不可欠である。
人間の行動分析が可能なシステムは、自動運転車、医療研究、監視などに使われる。
本稿では,ショートビデオ記録をトレーニングし,モダリティ不変な埋め込みを活用するために,シームズ拡張を用いたマルチモーダルディープニューラルネットワークを提案する。
このタスクでは,音響,視覚,テキストの情報を高性能なソリューションに活用する。
分析されたデータセットの高度に集中したターゲット分布のため、第3桁の変更は関連している。
提案手法は, 最短値表現の難しさに対処し, 0.0033 MAE平均改善を実現し, 導入モジュールを使わずに, ベースラインマルチモーダルDNNに対して明確な優位性を示す。
関連論文リスト
- Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Enhancing the analysis of murine neonatal ultrasonic vocalizations: Development, evaluation, and application of different mathematical models [0.8431877864777444]
ネズミは、社会コミュニケーションに幅広い超音波発声(USV)を使用する。
本稿では,USV分類のための異なるタイプのニューラルネットワークを初めて体系的に評価する。
論文 参考訳(メタデータ) (2024-05-17T07:46:05Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - MONAL: Model Autophagy Analysis for Modeling Human-AI Interactions [11.972017738888825]
大規模モデルの自己消費説明のためのモデルオートファジー分析(MONAL)を提案する。
MONALは、人間とAIシステム間の交換における人為的な情報の抑制を解明するために、2つの異なる自己食ループを使用している。
生成したモデルのキャパシティを,情報作成者とディスセミネータの両方として評価する。
論文 参考訳(メタデータ) (2024-02-17T13:02:54Z) - Improving Neural Additive Models with Bayesian Principles [54.29602161803093]
ニューラル加算モデル(NAM)は、個別の加算サブネットワークでキャリブレーションされた入力特徴を扱うことにより、ディープニューラルネットワークの透明性を高める。
本研究では,Laplace-approximated NAM (LA-NAMs) を開発した。
論文 参考訳(メタデータ) (2023-05-26T13:19:15Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - In-Bed Human Pose Estimation from Unseen and Privacy-Preserving Image
Domains [22.92165116962952]
ベッド内の人間の姿勢推定は、医療状況の評価において潜在的な価値を持つ重要な健康関連指標を提供する。
本稿では,マルチモーダル条件変分オートエンコーダ(MC-VAE)を提案する。
本研究は, 身体位置が利用可能なモダリティから効果的に認識できることを示し, ベースラインモデルと同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2021-11-30T04:56:16Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Introducing Representations of Facial Affect in Automated Multimodal
Deception Detection [18.16596562087374]
自動偽造検知システムは、社会の健康、正義、安全を高めることができる。
本稿では,顔認識における顔の感情の次元表現力の新たな解析法を提案する。
私たちは、現実世界の、高額な法廷状況で、真実または偽装的にコミュニケーションする人々のビデオデータセットを使用しました。
論文 参考訳(メタデータ) (2020-08-31T05:12:57Z) - An Uncertainty-based Human-in-the-loop System for Industrial Tool Wear
Analysis [68.8204255655161]
人間のループシステムにおけるモンテカルロのドロップアウトに基づく不確実性対策により,システムの透明性と性能が向上することを示す。
シミュレーション研究により、不確実性に基づく「ループ内人間システム」は、様々なレベルの人間の関与に対する性能を高めることが示されている。
論文 参考訳(メタデータ) (2020-07-14T15:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。