論文の概要: AffectVerse: Emotional World Models for Multimodal Affective Computing
- arxiv url: http://arxiv.org/abs/2605.19950v1
- Date: Tue, 19 May 2026 15:05:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.461298
- Title: AffectVerse: Emotional World Models for Multimodal Affective Computing
- Title(参考訳): AffectVerse:マルチモーダル感情コンピューティングのための感情世界モデル
- Authors: Bo Zhao, Fanghua Ye, Yixin Ji, Sicheng Zhao, Xiaojiang Peng, Zitong YU,
- Abstract要約: AffectVerseは、短時間の潜伏感情予測のためのアクションフリー表現レベルモジュールである。
EWMには3つのモジュールが含まれている。 1) クロスモーダルなテンポラル・イマジネーションは、複数ステップのロールアウトで過去のトークンから将来のビデオ/オーディオ表現を予測する。
EWMは想像されたトークンをモダリティ対応の信仰トークンに圧縮する。
これらの結果は、予測的信念状態モデリングが感情コンピューティングの実用的な代替手段であることを示唆している。
- 参考スコア(独自算出の注目度): 56.144242722718985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans infer emotions by integrating observed multimodal cues with expectations about how affective states may unfold. Existing multimodal large language models (MLLMs), however, often treat emotion recognition as static fusion over complete audiovisual-text inputs, leaving affective dynamics implicit. We propose AffectVerse, a Qwen2.5-Omni-based model equipped with an Emotion World Module (EWM), an action-free representation-level module for short-horizon latent affective prediction. \rev{EWM contains three modules: 1) Cross-Modal Temporal Imagination predicts future video/audio representations from past tokens with multi-step rollout. 2) MAMA(Modality-Aware Multi-step Attention) Belief Aggregation compresses imagined tokens into modality-aware belief tokens. 3) Belief Injection inserts these belief tokens into the LLM for affective reasoning.} AffectVerse uses future prediction as a past-conditioned self-supervised signal: it does not replace modeling observed history or require unseen signals at inference, but forces the current belief state to encode transition cues that are predictive of subsequent affective change. Across nine benchmarks, AffectVerse improves at least 2.57\% over other models, while controlled ablations show additive gains from temporal imagination, cross-modal rollout, and belief aggregation. These results suggest predictive belief-state modeling is a practical alternative for affective computing.
- Abstract(参考訳): 人間は、観察されたマルチモーダルの手がかりを、感情状態がどのように展開されるかについての期待と統合することによって感情を推測する。
しかし、既存のマルチモーダルな大言語モデル(MLLM)は、感情認識を完全な視覚テキスト入力に対する静的な融合として扱うことが多く、感情力学は暗黙的に残る。
本稿では,Qwen2.5-OmniベースのモデルであるAffectVerseを提案する。
\rev{EWM には3つのモジュールがある。
1) 複数ステップのロールアウトで過去のトークンから映像・オーディオ表現を予測する。
2)MAMA (Modality-Aware Multi-step Attention) Belief Aggregation compresssimaged tokens into modality-Aware belief tokens。
3) 信念注入は、感情的推論のためにこれらの信念トークンを LLM に挿入する。
AffectVerseは、将来の予測を過去の条件付き自己教師信号として使用し、観測された履歴のモデリングを置き換えたり、推論時に見知らぬ信号を必要とするのではなく、現在の信念状態に、その後の感情の変化を予測可能な遷移キューをエンコードするよう強制する。
9つのベンチマークで、AffectVerseは他のモデルよりも少なくとも2.57\%改善されている。
これらの結果は、予測的信念状態モデリングが感情コンピューティングの実用的な代替手段であることを示唆している。
関連論文リスト
- Emotion-Conditioned Short-Horizon Human Pose Forecasting with a Lightweight Predictive World Model [0.0]
短期的な人間のポーズ予測は、対話システム、補助ロボット、感情に敏感な人間とコンピュータの相互作用において重要な役割を果たす。
本稿では,表情に基づく感情の埋め込みが,短時間のポーズ予測に補助的な条件付き信号を提供するかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-26T04:56:45Z) - Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling [2.8037951156321377]
本稿では,第10回ABAWチャレンジにおける表現課題に対するマルチモーダル感情認識フレームワークを提案する。
本フレームワークは,視覚および音声表現学習のための大規模事前学習モデルを構築し,それらを統合マルチモーダルアーキテクチャに統合する。
ABAW 10th EXPRベンチマークの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-12T14:20:29Z) - Memory-guided Prototypical Co-occurrence Learning for Mixed Emotion Recognition [56.00118641432005]
本稿では,感情共起パターンを明示的にモデル化するメモリ誘導型プロトタイプ共起学習フレームワークを提案する。
人間の認知記憶システムに触発されて,意味レベルの共起関係を抽出するメモリ検索戦略を導入する。
本モデルは感情分布予測のための感情情報表現を学習する。
論文 参考訳(メタデータ) (2026-02-24T04:11:25Z) - Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding [45.13650362585136]
Emotion-LLaMAv2 と MMEVerse のベンチマークを行い、感情認識と推論のための標準化された評価設定とともにエンドツーエンドのパイプラインを構築した。
エンドツーエンドのマルチビューエンコーダは、外部顔検出を排除し、よりリッチな空間的および時間的マルチビュートークンを介して、ニュアンス化された感情的手がかりをキャプチャする。
LLaMA2バックボーン内における認識と認識のカリキュラムのチューニングスキームは、感情認識と自由形式の感情推論を統一する。
論文 参考訳(メタデータ) (2026-01-23T05:02:43Z) - Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Modality-Transferable Emotion Embeddings for Low-Resource Multimodal
Emotion Recognition [55.44502358463217]
本稿では、上記の問題に対処するため、感情を埋め込んだモダリティ変換可能なモデルを提案する。
我々のモデルは感情カテゴリーのほとんどで最先端のパフォーマンスを達成する。
私たちのモデルは、目に見えない感情に対するゼロショットと少数ショットのシナリオにおいて、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-21T06:10:39Z) - Knowledge Distillation for Action Anticipation via Label Smoothing [21.457069042129138]
視覚的観察や非言語的手がかりから未来を予測できる人間の能力は、インテリジェントなシステムを開発する上で不可欠である。
我々は,長期記憶(LSTM)ネットワークに基づくマルチモーダルフレームワークを実装し,過去の観測を要約し,異なる時間ステップで予測を行う。
実験により,ラベルの平滑化は動作予測のための最先端モデルの性能を体系的に向上することが示された。
論文 参考訳(メタデータ) (2020-04-16T15:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。