論文の概要: Uncertainty-Aware Collaborative System of Large and Small Models for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2509.04459v1
- Date: Wed, 27 Aug 2025 16:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.880471
- Title: Uncertainty-Aware Collaborative System of Large and Small Models for Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感性分析のための大小モデルの不確実性を考慮した協調システム
- Authors: Shiqin Han, Manning Gao, Menghua Jiang, Yuncheng Jiang, Haifeng Hu, Sijie Mai,
- Abstract要約: マルチモーダル感情分析のための強力なMLLMと軽量なベースラインモデルを編成する新しい不確実性認識協調システム(U-ACS)を提案する。
提案手法は,スタンドアロンのMLLMに比べて計算資源のごく一部しか必要とせず,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 17.98292973608615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Multimodal Large Language Models (MLLMs) has significantly advanced the state-of-the-art in multimodal machine learning, yet their substantial computational demands present a critical barrier to real-world deployment. Conversely, smaller, specialized models offer high efficiency but often at the cost of performance. To reconcile this performance-efficiency trade-off, we propose a novel Uncertainty-Aware Collaborative System (U-ACS) that synergistically orchestrates a powerful MLLM (e.g., HumanOmni) and a lightweight baseline model for multimodal sentiment analysis. The core of our system is an uncertainty-driven cascade mechanism, where the efficient small model first acts as a rapid filter for all input samples. Only those samples yielding high predictive uncertainty, thereby indicating greater difficulty, are selectively escalated to the MLLM for more sophisticated analysis. Furthermore, our system introduces advanced strategies to handle ambiguous or conflicting predictions, including weighted averaging for predictions of similar polarity and a prompt-based cross-verification to resolve conflicting predictions when both models exhibit high uncertainty. This sample-difficulty-aware approach allows for a dynamic allocation of computational resources, drastically reducing inference costs while retaining the high accuracy of MLLM. Extensive experiments on benchmark datasets demonstrate that our proposed method achieves state-of-the-art performance, while requiring only a fraction of the computational resources compared to using a standalone MLLM.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の出現は、マルチモーダル機械学習における最先端の最先端を著しく前進させてきたが、その膨大な計算要求は、現実世界の展開にとって重要な障壁となっている。
逆に、より小型の特殊なモデルは高い効率性を提供するが、しばしば性能の犠牲になる。
この性能・効率のトレードオフを整理するため、我々は、強力なMLLM(例えばHumanOmni)とマルチモーダル感情分析のための軽量ベースラインモデルとを相乗的にオーケストレーションする、新しい不確実性意識協調システム(U-ACS)を提案する。
このシステムの中核は不確実性駆動型カスケード機構であり、効率的な小型モデルがまず全ての入力サンプルの高速フィルタとして機能する。
高い予測の不確実性をもたらすサンプルのみが、より高度な分析のためにMLLMに選択的にエスカレーションされる。
さらに,本システムでは,類似極性の予測に対する重み付け平均化や,両モデルとも不確実性が高い場合に矛盾予測を解決するための相互検証など,曖昧な予測や矛盾予測を扱うための高度な戦略を導入している。
このサンプル拡散型アプローチは、計算資源の動的割り当てを可能にし、MLLMの高精度を維持しながら、推論コストを大幅に削減する。
ベンチマークデータセットの大規模な実験により,提案手法は,スタンドアロンのMLLMに比べて計算資源のごく一部しか必要とせず,最先端の性能を実現することが示された。
関連論文リスト
- Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [54.70676039314542]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は、最先端のPTQ手法を実装し、複数のタスクタイプとモデル変種を包括的に評価する。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Task-Agnostic Machine-Learning-Assisted Inference [0.0]
タスクに依存しないML支援推論のためのPSPSという新しい統計フレームワークを提案する。
PSPSは、ほぼすべての確立したデータ分析ルーチンに簡単にプラグインできる予測後推論ソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-30T13:19:49Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Interfacing Finite Elements with Deep Neural Operators for Fast
Multiscale Modeling of Mechanics Problems [4.280301926296439]
本研究では,機械学習を用いたマルチスケールモデリングのアイデアを探求し,高コストソルバの効率的なサロゲートとしてニューラル演算子DeepONetを用いる。
DeepONetは、きめ細かい解法から取得したデータを使って、基礎とおそらく未知のスケールのダイナミクスを学習してオフラインでトレーニングされている。
精度とスピードアップを評価するための様々なベンチマークを提示し、特に時間依存問題に対する結合アルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-25T20:46:08Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。