論文の概要: AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2604.12735v1
- Date: Tue, 14 Apr 2026 13:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.465151
- Title: AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition
- Title(参考訳): AffectAgent:Retrieval-Augmented Multimodal Emotion Recognitionのための協調的マルチエージェント推論
- Authors: Zeheng Wang, Zitong Yu, Yijie Zhu, Bo Zhao, Haochen Liang, Taorui Wang, Wei Xia, Jiayu Zhang, Zhishu Liu, Hui Ma, Fei Ma, Qi Tian,
- Abstract要約: LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
- 参考スコア(独自算出の注目度): 62.16431420189863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based multimodal emotion recognition relies on static parametric memory and often hallucinates when interpreting nuanced affective states. In this paper, given that single-round retrieval-augmented generation is highly susceptible to modal ambiguity and therefore struggles to capture complex affective dependencies across modalities, we introduce AffectAgent, an affect-oriented multi-agent retrieval-augmented generation framework that leverages collaborative decision-making among agents for fine-grained affective understanding. Specifically, AffectAgent comprises three jointly optimized specialized agents, namely a query planner, an evidence filter, and an emotion generator, which collaboratively perform analytical reasoning to retrieve cross-modal samples, assess evidence, and generate predictions. These agents are optimized end-to-end using Multi-Agent Proximal Policy Optimization (MAPPO) with a shared affective reward to ensure consistent emotion understanding. Furthermore, we introduce Modality-Balancing Mixture of Experts (MB-MoE) and Retrieval-Augmented Adaptive Fusion (RAAF), where MB-MoE dynamically regulates the contributions of different modalities to mitigate representation mismatch caused by cross-modal heterogeneity, while RAAF enhances semantic completion under missing-modality conditions by incorporating retrieved audiovisual embeddings. Extensive experiments on MER-UniBench demonstrate that AffectAgent achieves superior performance across complex scenarios. Our code will be released at: https://github.com/Wz1h1NG/AffectAgent.
- Abstract(参考訳): LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では、単一ラウンドの検索強化生成が、モダリティ間の複雑な情緒的依存を捉えることに苦慮していることを前提として、エージェント間の協調的な意思決定を利用した、感情指向のマルチエージェント検索強化生成フレームワークであるAffectAgentを紹介する。
具体的には、AffectAgentは、クエリプランナー、エビデンスフィルタ、感情生成という、共同最適化された3つの特殊エージェントから構成される。
これらのエージェントはマルチエージェント・プロキシ・ポリシー・オプティマイズ(MAPPO)を用いてエンドツーエンドに最適化され、一貫した感情理解を確保する。
さらに,MB-MoE(Modality-Balancing Mixture of Experts)とRetrieval-Augmented Adaptive Fusion(Retrieval-Augmented Adaptive Fusion,RAAF)を導入する。
MER-UniBenchに関する大規模な実験は、AffectAgentが複雑なシナリオで優れたパフォーマンスを達成することを示した。
私たちのコードは、https://github.com/Wz1h1NG/AffectAgent.comでリリースされます。
関連論文リスト
- FusionAgent: A Multimodal Agent with Dynamic Model Selection for Human Recognition [22.18313011042103]
textbfFusionAgentは動的でサンプル固有のモデル選択のための新しいエージェントフレームワークである。
信頼性トップク(ACT)スコア融合は、最も信頼度の高いモデルにアンカーを配置し、信頼性に配慮した補完的な予測を統合する。
複数の全身バイオメトリック・ベンチマークの実験では、FusionAgentはSoTA法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-27T18:35:44Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - MAGIC-MASK: Multi-Agent Guided Inter-Agent Collaboration with Mask-Based Explainability for Reinforcement Learning [0.0]
本稿では,マルチエージェント強化学習への摂動に基づく説明を拡張した数学的基盤を持つMAGIC-MASKを提案する。
提案手法は, 近似ポリシ最適化, 適応型エプシロン・グレーディ探索, および軽量なエージェント間協調を統合した。
この共同作業により、各エージェントは給与誘導マスキングを行い、報酬に基づく洞察を仲間と共有し、臨界状態発見に必要な時間を短縮することができる。
論文 参考訳(メタデータ) (2025-09-30T20:53:28Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。