論文の概要: GAME: Learning Multimodal Interactions via Graph Structures for Personality Trait Estimation
- arxiv url: http://arxiv.org/abs/2505.03846v2
- Date: Sat, 31 May 2025 09:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.346846
- Title: GAME: Learning Multimodal Interactions via Graph Structures for Personality Trait Estimation
- Title(参考訳): GAME:パーソナリティトランジット推定のためのグラフ構造を用いたマルチモーダルインタラクション学習
- Authors: Kangsheng Wang, Yuhang Li, Chengwei Ye, Yufei Lin, Huanzhen Zhang, Bohan Hu, Linuo Xu, Shuyan Liu,
- Abstract要約: ショートビデオからの明瞭なパーソナリティ分析は、視覚的、聴覚的、およびテキスト的手がかりの複雑な相互作用のため、重要なチャルレンジを呈する。
本稿では,グラフ拡張型マルチモーダル進化法であるGAMEを提案する。
ビジュアルストリームのために、顔グラフを構築し、グラフ畳み込みネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を組み合わせたデュアルブランチGeo Two-Stream Networkを導入する。
時間的ダイナミクスを捉えるために、フレームレベルの特徴はBiGによって処理される
- 参考スコア(独自算出の注目度): 13.071227081328288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Apparent personality analysis from short videos poses significant chal-lenges due to the complex interplay of visual, auditory, and textual cues. In this paper, we propose GAME, a Graph-Augmented Multimodal Encoder designed to robustly model and fuse multi-source features for automatic personality prediction. For the visual stream, we construct a facial graph and introduce a dual-branch Geo Two-Stream Network, which combines Graph Convolutional Networks (GCNs) and Convolutional Neural Net-works (CNNs) with attention mechanisms to capture both structural and appearance-based facial cues. Complementing this, global context and iden-tity features are extracted using pretrained ResNet18 and VGGFace back-bones. To capture temporal dynamics, frame-level features are processed by a BiGRU enhanced with temporal attention modules. Meanwhile, audio representations are derived from the VGGish network, and linguistic se-mantics are captured via the XLM-Roberta transformer. To achieve effective multimodal integration, we propose a Channel Attention-based Fusion module, followed by a Multi-Layer Perceptron (MLP) regression head for predicting personality traits. Extensive experiments show that GAME con-sistently outperforms existing methods across multiple benchmarks, vali-dating its effectiveness and generalizability.
- Abstract(参考訳): ショートビデオからの明瞭なパーソナリティ分析は、視覚的、聴覚的、およびテキスト的手がかりの複雑な相互作用のため、重要なチャルレンジを呈する。
本稿では,グラフ拡張型マルチモーダルエンコーダであるGAMEを提案する。
視覚的ストリームに対して,2分岐のGeo Two-Stream Networkを導入し,GCN(Graph Convolutional Networks)とCNN(Convolutional Neural Net-works)を組み合わせた2分岐のGeo Two-Stream Networkを導入する。
これの補完として、事前訓練されたResNet18とVGGFaceバックボーンを使用して、グローバルコンテキストとアイデンティティの機能を抽出する。
時間的ダイナミクスを捉えるために、フレームレベルの特徴は時間的アテンションモジュールで強化されたBiGRUによって処理される。
一方、音声表現はVGGishネットワークから派生し、XLM-Roberta変換器を介して言語セマンティックをキャプチャする。
効果的なマルチモーダル統合を実現するために,Channel AttentionをベースとしたFusionモジュールを提案し,続いて個性特性を予測するためのMulti-Layer Perceptron (MLP)レグレッションヘッドを提案する。
大規模な実験により、GAMEは既存の手法を複数のベンチマークで比較し、その有効性と一般化可能性について検証した。
関連論文リスト
- Graph-Driven Multimodal Feature Learning Framework for Apparent Personality Assessment [0.39945675027960637]
人格特性の自動予測は、コンピュータビジョンにおいて難しい問題となっている。
本稿では,ショートビデオクリップにおけるパーソナリティ分析のための革新的なマルチモーダル特徴学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T14:26:12Z) - Interactive Multimodal Fusion with Temporal Modeling [11.506800500772734]
本手法では,マルチモーダル・フレームワークを通じて視覚情報と音声情報を統合する。
ビジュアルブランチは、トレーニング済みのResNetモデルを使用して、顔画像から特徴を抽出する。
オーディオブランチは、トレーニング済みのVGGモデルを使用して、音声信号からVGGishとLogMelの特徴を抽出する。
提案手法は,Aff-Wild2データセット上での競合性能を実現し,VA推定に有効なマルチモーダル融合を実証する。
論文 参考訳(メタデータ) (2025-03-13T16:31:56Z) - MVCNet: Multi-View Contrastive Network for Motor Imagery Classification [20.78236894605647]
運動画像復号法(MI)は直感的なメカニズムにより注目されている。
既存のモデルの多くはシングルストリームアーキテクチャに依存しており、EEG信号のマルチビューの性質を見落とし、性能と一般化が制限されている。
本稿では,CNNとTransformerモデルを並列に統合し,局所的な時空間的特徴とグローバルな時間的依存関係の両方をキャプチャするマルチビューコントラストネットワーク(MVCNet)を提案する。
論文 参考訳(メタデータ) (2025-02-18T10:30:53Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - MTS2Graph: Interpretable Multivariate Time Series Classification with
Temporal Evolving Graphs [1.1756822700775666]
入力代表パターンを抽出・クラスタリングすることで時系列データを解釈する新しいフレームワークを提案する。
UCR/UEAアーカイブの8つのデータセットとHARとPAMデータセットで実験を行います。
論文 参考訳(メタデータ) (2023-06-06T16:24:27Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Video-based Facial Expression Recognition using Graph Convolutional
Networks [57.980827038988735]
我々は、ビデオベースの表情認識のための共通のCNN-RNNモデルに、GCN(Graph Convolutional Network)層を導入する。
我々は、CK+、Oulu-CASIA、MMIの3つの広く使われているデータセットと、AFEW8.0の挑戦的なワイルドデータセットについて、本手法の評価を行った。
論文 参考訳(メタデータ) (2020-10-26T07:31:51Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。