論文の概要: FusionAgent: A Multimodal Agent with Dynamic Model Selection for Human Recognition
- arxiv url: http://arxiv.org/abs/2603.26908v1
- Date: Fri, 27 Mar 2026 18:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.690506
- Title: FusionAgent: A Multimodal Agent with Dynamic Model Selection for Human Recognition
- Title(参考訳): FusionAgent:人間認識のための動的モデル選択型マルチモーダルエージェント
- Authors: Jie Zhu, Xiao Guo, Yiyang Su, Anil Jain, Xiaoming Liu,
- Abstract要約: textbfFusionAgentは動的でサンプル固有のモデル選択のための新しいエージェントフレームワークである。
信頼性トップク(ACT)スコア融合は、最も信頼度の高いモデルにアンカーを配置し、信頼性に配慮した補完的な予測を統合する。
複数の全身バイオメトリック・ベンチマークの実験では、FusionAgentはSoTA法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 22.18313011042103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model fusion is a key strategy for robust recognition in unconstrained scenarios, as different models provide complementary strengths. This is especially important for whole-body human recognition, where biometric cues such as face, gait, and body shape vary across samples and are typically integrated via score-fusion. However, existing score-fusion strategies are usually static, invoking all models for every test sample regardless of sample quality or modality reliability. To overcome these limitations, we propose \textbf{FusionAgent}, a novel agentic framework that leverages a Multimodal Large Language Model (MLLM) to perform dynamic, sample-specific model selection. Each expert model is treated as a tool, and through Reinforcement Fine-Tuning (RFT) with a metric-based reward, the agent learns to adaptively determine the optimal model combination for each test input. To address the model score misalignment and embedding heterogeneity, we introduce Anchor-based Confidence Top-k (ACT) score-fusion, which anchors on the most confident model and integrates complementary predictions in a confidence-aware manner. Extensive experiments on multiple whole-body biometric benchmarks demonstrate that FusionAgent significantly outperforms SoTA methods while achieving higher efficiency through fewer model invocations, underscoring the critical role of dynamic, explainable, and robust model fusion in real-world recognition systems. Project page: \href{https://fusionagent.github.io/}{FusionAgent}.
- Abstract(参考訳): モデル融合は、異なるモデルが相補的な強みを提供するため、制約のないシナリオにおいて堅牢な認識のための重要な戦略である。
これは人体全体の認識において特に重要であり、顔、歩行、体形などの生体的手がかりはサンプルによって異なり、通常はスコア融合によって統合される。
しかしながら、既存のスコアフュージョン戦略は通常静的であり、サンプルの品質やモダリティの信頼性に関わらず、すべてのテストサンプルに対してすべてのモデルを呼び出す。
このような制約を克服するために,マルチモーダル大言語モデル (MLLM) を利用した動的サンプル固有モデル選択を行う新しいエージェントフレームワークである \textbf{FusionAgent} を提案する。
各専門家モデルは、ツールとして扱われ、メトリクスベースの報酬を持つ強化細調整(RFT)を通して、エージェントは、各テスト入力に対して最適なモデルの組み合わせを適応的に決定する。
モデルスコアのミスアライメントと不均一性の埋め込みに対処するために,最も信頼度の高いモデルに固定し,補完予測を信頼度の高い方法で統合するアンカーベースの信頼性トップク(ACT)スコアフュージョンを導入する。
複数の全身バイオメトリック・ベンチマークの大規模な実験により、FusionAgentはSoTA法を著しく上回り、より少ないモデル呼び出しによって高い効率を達成し、現実の認識システムにおける動的で説明可能な、堅牢なモデル融合の重要な役割を強調した。
プロジェクトページ: \href{https://fusionagent.github.io/}{FusionAgent}。
関連論文リスト
- Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [54.77404771454794]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。
本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T09:11:38Z) - Revisit Mixture Models for Multi-Agent Simulation: Experimental Study within a Unified Framework [19.558523263211942]
マルチエージェントシミュレーションでは、行動多様性や閉ループ分布シフトが主な課題である。
本研究では,マルチモーダルエージェントの挙動を生成するための混合モデルを再検討し,本研究の主流となる手法について述べる。
本研究では,混合モデルに適したクローズドループサンプル生成手法を導入し,分散シフトを緩和する。
論文 参考訳(メタデータ) (2025-01-28T15:26:25Z) - Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - General multi-fidelity surrogate models: Framework and active learning
strategies for efficient rare event simulation [1.708673732699217]
複雑な現実世界のシステムの失敗の確率を推定することは、しばしば違法に高価である。
本稿では,頑健な多要素代理モデリング戦略を提案する。
高忠実度モデル呼び出しの数を劇的に削減しながら、非常に正確であることが示されている。
論文 参考訳(メタデータ) (2022-12-07T00:03:21Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。