論文の概要: Confidence-Credibility Aware Weighted Ensembles of Small LLMs Outperform Large LLMs in Emotion Detection
- arxiv url: http://arxiv.org/abs/2512.17630v1
- Date: Fri, 19 Dec 2025 14:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.433921
- Title: Confidence-Credibility Aware Weighted Ensembles of Small LLMs Outperform Large LLMs in Emotion Detection
- Title(参考訳): 感情検出における小型LLMの信頼性と軽量化
- Authors: Menna Elgabry, Ali Hamdi,
- Abstract要約: 本稿では,テキストによる感情検出のための信頼度に配慮したアンサンブルフレームワークを提案する。
提案手法は,アーキテクチャ的に多種多様な小型トランスフォーマーベース大規模言語モデル (sLLM) - BERT, RoBERTa, DistilBERT, DeBERTa, ELECTRA を組み合わせたものである。
DAIR-AIデータセットの実験により、我々の信頼度信頼度アンサンブルはマクロF1スコアが93.5パーセントに達することが示された。
- 参考スコア(独自算出の注目度): 0.2864713389096699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a confidence-weighted, credibility-aware ensemble framework for text-based emotion detection, inspired by Condorcet's Jury Theorem (CJT). Unlike conventional ensembles that often rely on homogeneous architectures, our approach combines architecturally diverse small transformer-based large language models (sLLMs) - BERT, RoBERTa, DistilBERT, DeBERTa, and ELECTRA, each fully fine-tuned for emotion classification. To preserve error diversity, we minimize parameter convergence while taking advantage of the unique biases of each model. A dual-weighted voting mechanism integrates both global credibility (validation F1 score) and local confidence (instance-level probability) to dynamically weight model contributions. Experiments on the DAIR-AI dataset demonstrate that our credibility-confidence ensemble achieves a macro F1 score of 93.5 percent, surpassing state-of-the-art benchmarks and significantly outperforming large-scale LLMs, including Falcon, Mistral, Qwen, and Phi, even after task-specific Low-Rank Adaptation (LoRA). With only 595M parameters in total, our small LLMs ensemble proves more parameter-efficient and robust than models up to 7B parameters, establishing that carefully designed ensembles of small, fine-tuned models can outperform much larger LLMs in specialized natural language processing (NLP) tasks such as emotion detection.
- Abstract(参考訳): 本稿では,Condorcet の Jury Theorem (CJT) に触発された,テキストに基づく感情検出のための信頼度に富んだ,信頼度に配慮したアンサンブルフレームワークを提案する。
均質なアーキテクチャによく依存する従来のアンサンブルとは異なり、我々のアプローチはアーキテクチャ的に多様で小さなトランスフォーマーベースの大規模言語モデル(sLLM) - BERT, RoBERTa, DistilBERT, DeBERTa, ELECTRA - を組み合わせることで、それぞれが感情の分類に最適化されている。
誤差の多様性を維持するために,各モデルの固有バイアスを利用してパラメータ収束を最小化する。
二重重み付き投票機構は、グローバル信頼度(検証F1スコア)と局所信頼度(インスタンスレベルの確率)の両方を動的に重み付けする。
DAIR-AIデータセットの実験では、タスク固有の低ランク適応(LoRA)の後にも、我々の信頼性と信頼性のアンサンブルが93.5パーセントのマクロF1スコアを達成し、最先端のベンチマークを超え、Falcon、Mistral、Qwen、Phiといった大規模LLMを大幅に上回っていることが示されています。
合計で595万のパラメータしか持たず、我々の小さなLLMのアンサンブルは、7Bのパラメータまでのモデルよりもパラメータ効率が高く、ロバストであることを示し、細調整された小さなモデルのアンサンブルが、感情検出のような特殊な自然言語処理(NLP)タスクにおいてはるかに大きなLLMより優れていることを証明した。
関連論文リスト
- Uncertainty-Aware Answer Selection for Improved Reasoning in Multi-LLM Systems [55.6590601898194]
大規模言語モデル(LLM)は例外的な機能を示しているが、複数のLLMから最も信頼性の高い応答を選択することは依然として困難である。
既存のアプローチは、しばしばコストのかかる外部検証器、人間の評価器、または単一のモデルから複数のサンプルを必要とする自己整合技術に依存している。
校正されたログ類似度スコアを用いて,複数のLLMから最適な応答を選択するための,原理的,斬新で,計算的に効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:19Z) - LENS: Learning Ensemble Confidence from Neural States for Multi-LLM Answer Integration [0.0]
大きな言語モデル(LLM)は、様々なタスクで素晴らしいパフォーマンスを示しています。
LENS(Learning ENsemble confidence from Neural States)は、内部表現を分析してモデル信頼度を推定する新しい手法である。
論文 参考訳(メタデータ) (2025-07-31T00:35:45Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Self-ensemble: Mitigating Confidence Mis-calibration for Large Language Models [67.62810111789338]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。
この問題を解決するために自己組織化を提案する。
3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文 参考訳(メタデータ) (2025-06-02T17:59:29Z) - MM-R$^3$: On (In-)Consistency of Vision-Language Models (VLMs) [26.475993408532304]
本稿では,3つのタスク(質問文の表現,画像の復元,コンテキスト推論)に基づいて,SoTA視覚言語モデルの性能を解析する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
本稿では,命令間の不整合を最小限に抑えるために訓練されたアダプタモジュールの形式で,シンプルながら効果的な緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - Aligner: One Global Token is Worth Millions of Parameters When Aligning
Large Language Models [72.26732961610557]
私たちは小説『アリグナー』を紹介します。
マルチビリオンパラメータサイズ大言語モデル(LLM)の整列のためのPEFT法
Alignerは、数百万のパラメータを必要とするLoRAのような最先端のLLM適応手法に対して、相容れない性能を保てることを示す。
論文 参考訳(メタデータ) (2023-12-09T08:25:55Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。