論文の概要: Nuanced Emotion Recognition Based on a Segment-based MLLM Framework Leveraging Qwen3-Omni for AH Detection
- arxiv url: http://arxiv.org/abs/2603.13406v1
- Date: Thu, 12 Mar 2026 08:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.174468
- Title: Nuanced Emotion Recognition Based on a Segment-based MLLM Framework Leveraging Qwen3-Omni for AH Detection
- Title(参考訳): AH検出のためのQwen3-Omniを利用したセグメントベースMLLMフレームワークによるニュアンス感情認識
- Authors: Liang Tang, Hongda Li, Jiayu Zhang, Long Chen, Shuxian Li, Siqi Pei, Tiaonan Duan, Yuhao Cheng,
- Abstract要約: 本稿では,時間セグメントモデリングを多モーダル大言語モデルと統合する認識フレームワークを提案する。
セグメントベースの戦略を採用し、動画を最大5秒の短いクリップに分割する。
実験結果から,提案手法の精度は85.1%であった。
- 参考スコア(独自算出の注目度): 15.9620440408998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion recognition in videos is a pivotal task in affective computing, where identifying subtle psychological states such as Ambivalence and Hesitancy holds significant value for behavioral intervention and digital health. Ambivalence and Hesitancy states often manifest through cross-modal inconsistencies such as discrepancies between facial expressions, vocal tones, and textual semantics, posing a substantial challenge for automated recognition. This paper proposes a recognition framework that integrates temporal segment modeling with Multimodal Large Language Models. To address computational efficiency and token constraints in long video processing, we employ a segment-based strategy, partitioning videos into short clips with a maximum duration of 5 seconds. We leverage the Qwen3-Omni-30B-A3B model, fine-tuned on the BAH dataset using LoRA and full-parameter strategies via the MS-Swift framework, enabling the model to synergistically analyze visual and auditory signals. Experimental results demonstrate that the proposed method achieves an accuracy of 85.1% on the test set, significantly outperforming existing benchmarks and validating the superior capability of Multimodal Large Language Models in capturing complex and nuanced emotional conflicts. The code is released at https://github.com/dlnn123/A-H-Detection-with-Qwen-Omni.git.
- Abstract(参考訳): ビデオにおける感情認識は感情コンピューティングにおいて重要な課題であり、アンビバレンスやヘシタシーといった微妙な心理的状態の識別は、行動介入やデジタル健康にとって重要な意味を持つ。
アンビバレンスとヘシテンシー状態は、表情、声調、テキスト意味論の相違など、モダリカルな矛盾を通じてしばしば現れ、自動認識に重大な課題を生じさせた。
本稿では,時間セグメントモデリングを多モーダル大言語モデルと統合する認識フレームワークを提案する。
長大なビデオ処理における計算効率とトークン制約に対処するために,セグメントベースの戦略を採用し,最大5秒の短いクリップに分割する。
我々は、LoRAを用いてBAHデータセットを微調整したQwen3-Omni-30B-A3Bモデルと、MS-Swiftフレームワークによるフルパラメータ戦略を活用し、視覚信号と聴覚信号の相乗的解析を可能にする。
実験の結果,提案手法はテストセット上で85.1%の精度を達成し,既存のベンチマークを著しく上回り,複雑な感情的衝突を捉える上でのマルチモーダル・大規模言語モデルの優れた能力を検証した。
コードはhttps://github.com/dlnn123/A-H-Detection-with-Qwen-Omni.gitで公開されている。
関連論文リスト
- Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling [2.8037951156321377]
第10回ABAWチャレンジにおけるExpression (EXPR) 認識タスクのためのマルチモーダル感情認識フレームワークを提案する。
表情系列の時間的依存関係をモデル化するために、固定長ビデオウィンドウ上に時間的畳み込みネットワーク(TCN)を用いる。
さらに,視覚的特徴と音声的特徴が対称に相互作用し,相互モーダルな文脈化が促進される双方向の相互注意融合モジュールを導入する。
論文 参考訳(メタデータ) (2026-03-12T14:20:29Z) - Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding [45.13650362585136]
Emotion-LLaMAv2 と MMEVerse のベンチマークを行い、感情認識と推論のための標準化された評価設定とともにエンドツーエンドのパイプラインを構築した。
エンドツーエンドのマルチビューエンコーダは、外部顔検出を排除し、よりリッチな空間的および時間的マルチビュートークンを介して、ニュアンス化された感情的手がかりをキャプチャする。
LLaMA2バックボーン内における認識と認識のカリキュラムのチューニングスキームは、感情認識と自由形式の感情推論を統一する。
論文 参考訳(メタデータ) (2026-01-23T05:02:43Z) - Boosting Micro-Expression Analysis via Prior-Guided Video-Level Regression [15.099304324307434]
マイクロ・エクスプレッション(ME)は、不随意、低強度、短時間の表情である。
既存のME分析手法の多くは、固定されたウィンドウサイズと難しい決定を伴うウィンドウレベルの分類に依存している。
本稿では,ME解析のための事前誘導型ビデオレベル回帰手法を提案する。
論文 参考訳(メタデータ) (2025-08-26T09:13:36Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。
本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-25T11:50:23Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - HSEmotion Team at ABAW-8 Competition: Audiovisual Ambivalence/Hesitancy, Emotional Mimicry Intensity and Facial Expression Recognition [16.860963320038902]
本稿では,第8回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果について述べる。
事前学習したモデルから抽出した顔の感情記述子と音響的特徴と音声から認識されたテキストの埋め込みを組み合わせる。
フレームレベルの特徴を単純に集約し、多層パーセプトロンを訓練することにより、感情的模倣強度の映像レベル予測を実現する。
論文 参考訳(メタデータ) (2025-03-13T14:21:46Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。