論文の概要: Navigating the Emotion Tree: Hierarchical Hyperbolic RAG for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2605.18884v1
- Date: Sat, 16 May 2026 10:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.774376
- Title: Navigating the Emotion Tree: Hierarchical Hyperbolic RAG for Multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のための階層型双曲RAG
- Authors: Zeheng Wang, Bo Zhao, Yijie Zhu, Zhishu Liu, Hui Ma, Ruixin Zhang, Shouhong Ding, Qianyu Xie, Zitong Yu,
- Abstract要約: マルチモーダル感情認識は、人間の感情状態を理解するためにテキスト、音声、ビデオソースを統合することを目的としている。
大規模言語モデルは多モーダル推論において優れているが、感情カテゴリーを独立したラベルとして扱うのが一般的である。
本稿では,bftextHyperEmo-RAGを提案する。
- 参考スコア(独自算出の注目度): 56.650820426231284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition aims to integrate text, audio, and video sources to understand human affective states. Although multimodal large language models excel at multimodal reasoning, they typically treat emotion categories as independent labels, ignoring the rich hierarchical taxonomy of human psychology. Moreover, lacking external contextual knowledge makes them highly susceptible to over-interpreting noisy cues, further complicating fine-grained emotion classification. To address these issues, we propose \textbf{HyperEmo-RAG}, a retrieval-augmented generation framework that leverages a structured emotional knowledge base. Our framework introduces two key innovations. 1) Hierarchical hyperbolic grounding. Recognizing the inherent hierarchical tree structure of emotion taxonomies, we jointly embed hierarchical emotion labels and multimodal samples into a continuous hyperbolic space (Poincaré ball) and design a hierarchical beam-search deliberation process that progressively retrieves samples from coarse to fine-grained levels. 2) Structured evidence injection. Based on the retrieved evidence, we construct an evidence graph and inject the structured knowledge as explicit cognitive context into the LLM through a Tree-Aware Attention mechanism and an EmotionGraphFormer, preserving the integrity of graph-structured information. Experiments on multiple datasets demonstrate that HyperEmo-RAG significantly outperforms existing methods.
- Abstract(参考訳): マルチモーダル感情認識は、人間の感情状態を理解するためにテキスト、音声、ビデオソースを統合することを目的としている。
マルチモーダルな言語モデルは多モーダルな推論において優れているが、感情カテゴリーを独立したラベルとして扱い、人間の心理学の豊かな階層的な分類を無視する。
さらに、外部の文脈知識が欠如しているため、ノイズを過度に解釈し、さらにきめ細かい感情分類が複雑になる。
これらの問題に対処するために,構造化された感情知識ベースを活用した検索強化生成フレームワークである「textbf{HyperEmo-RAG}」を提案する。
私たちのフレームワークには2つの重要なイノベーションがあります。
1)階層的双曲的接地
感情分類学の固有な階層的木構造を認識し、階層的感情ラベルとマルチモーダル標本を連続的な双曲空間(ポアンカレ球)に共同で埋め込み、粗いレベルから細粒度レベルまで徐々にサンプルを回収する階層的ビーム探索精査プロセスを設計する。
2) 構造的証拠注入
得られたエビデンスに基づいて、構造化知識を明示的な認知コンテキストとしてLLMに注入するエビデンスグラフを構築し、グラフ構造化情報の整合性を保ったツリー認識アテンション機構とEmotionGraphFormerを用いて、構造化知識をLLMに注入する。
複数のデータセットの実験では、HyperEmo-RAGが既存のメソッドを大幅に上回っていることが示されている。
関連論文リスト
- EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis [61.87711517626139]
EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。
219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
論文 参考訳(メタデータ) (2025-11-16T11:16:50Z) - Incorporating Scene Context and Semantic Labels for Enhanced Group-level Emotion Recognition [39.138182195807424]
グループレベルの感情認識(GER)は、複数の個人を含むシーン内の全体的感情を識別することを目的としている。
現在ある手法は、個々の関係をモデル化する際の視覚的な文脈情報の重要性を過小評価している。
本稿では,GER性能を向上させるために,視覚的シーンコンテキストとラベル誘導意味情報を組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T01:25:39Z) - CoEmoGen: Towards Semantically-Coherent and Scalable Emotional Image Content Generation [3.5418954219513625]
感情画像コンテンツ生成(EICG)は、与えられた感情カテゴリに基づいて、意味的に明確で、感情的に忠実な画像を生成することを目的としている。
セマンティックコヒーレンスと高いスケーラビリティで有名な新しいパイプラインであるCoEmoGenを提案する。
スケーラビリティを直感的に示すために,情緒的な芸術的イメージの大規模なデータセットであるEmoArtをキュレートする。
論文 参考訳(メタデータ) (2025-08-05T15:04:34Z) - UniEmo: Unifying Emotional Understanding and Generation with Learnable Expert Queries [61.5273479616832]
感情的理解と生成をシームレスに統合する統合フレームワークを提案する。
我々は,UniEmoが感情的理解と生成の両タスクにおいて,最先端の手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-07-31T09:39:27Z) - Beyond Classification: Towards Speech Emotion Reasoning with Multitask AudioLLMs [47.325269852330884]
我々は,意味的に整合したエビデンスに基づく説明を行うことで,感情認識を強化する戦略を開発する。
本稿では、推論強化データ監視、デュアルエンコーダアーキテクチャ、タスク代替トレーニングを組み合わせた統合フレームワークを提案する。
IEMOCAPとMELDの実験により、我々のアプローチは感情予測精度を向上するだけでなく、生成した応答のコヒーレンスと明解なグラウンド化も向上することが示された。
論文 参考訳(メタデータ) (2025-06-07T14:52:58Z) - TONE: A 3-Tiered ONtology for Emotion analysis [9.227164881235947]
感情は心理学、医学、メンタルヘルス、コンピュータサイエンスなど、多くの分野で重要な役割を果たしてきた。
1) 教師付き手法の効率は収集したデータのサイズと領域に強く依存する。
我々は、Gerrod Parrot博士の感情群に基づく感情階層を効果的に生成する感情ベースのオントロジーを作成する。
論文 参考訳(メタデータ) (2024-01-11T04:23:08Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Unsupervised Extractive Summarization of Emotion Triggers [56.50078267340738]
我々は、感情を共同で検出し、トリガーを要約できる新しい教師なし学習モデルを開発した。
Emotion-Aware Pagerankと題された私たちのベストアプローチは、外部ソースからの感情情報と言語理解モジュールを組み合わせたものです。
論文 参考訳(メタデータ) (2023-06-02T11:07:13Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。