論文の概要: Majority Rules: LLM Ensemble is a Winning Approach for Content Categorization
- arxiv url: http://arxiv.org/abs/2511.15714v1
- Date: Tue, 11 Nov 2025 05:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.266443
- Title: Majority Rules: LLM Ensemble is a Winning Approach for Content Categorization
- Title(参考訳): 主要ルール: LLM Ensembleはコンテンツカテゴリ化の勝利のアプローチ
- Authors: Ariel Kamen, Yakov Kamen,
- Abstract要約: 本研究では,大規模言語モデル(LLM)を用いた非構造化テキスト分類のためのアンサンブルフレームワークを提案する。
複数のモデルを統合することで、アンサンブル大言語モデル(eLLM)フレームワークは個々のシステムの共通の弱点に対処する。
eLLMは人間の専門レベルに近いパフォーマンスを実現し、分類に基づく分類のためのスケーラブルで信頼性の高いソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study introduces an ensemble framework for unstructured text categorization using large language models (LLMs). By integrating multiple models, the ensemble large language model (eLLM) framework addresses common weaknesses of individual systems, including inconsistency, hallucination, category inflation, and misclassification. The eLLM approach yields a substantial performance improvement of up to 65\% in F1-score over the strongest single model. We formalize the ensemble process through a mathematical model of collective decision-making and establish principled aggregation criteria. Using the Interactive Advertising Bureau (IAB) hierarchical taxonomy, we evaluate ten state-of-the-art LLMs under identical zero-shot conditions on a human-annotated corpus of 8{,}660 samples. Results show that individual models plateau in performance due to the compression of semantically rich text into sparse categorical representations, while eLLM improves both robustness and accuracy. With a diverse consortium of models, eLLM achieves near human-expert-level performance, offering a scalable and reliable solution for taxonomy-based classification that may significantly reduce dependence on human expert labeling.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)を用いた非構造化テキスト分類のためのアンサンブルフレームワークを提案する。
複数のモデルを統合することで、アンサンブル大言語モデル(eLLM)フレームワークは、一貫性、幻覚、カテゴリーインフレーション、誤分類を含む個々のシステムの共通の弱点に対処する。
eLLMアプローチは、最強のシングルモデルよりもF1スコアで最大65%の大幅なパフォーマンス向上をもたらす。
我々は、集合決定の数学的モデルを用いてアンサンブル過程を定式化し、原理化された集約基準を確立する。
対話広告局 (IAB) の階層分類を用いて, 8{,}660サンプルの注釈付きコーパスに対して, 同一のゼロショット条件下で10種類の最先端LCMを評価した。
その結果,意味的リッチテキストを疎分類表現に圧縮することにより,個々のモデルの性能が向上し,eLLMはロバスト性と精度が向上した。
モデルの多種多様なコンソーシアムにより、eLLMは、人間の専門家によるラベル付けへの依存を著しく減少させる、分類学に基づく分類のためのスケーラブルで信頼性の高いソリューションを提供する。
関連論文リスト
- LLM-MemCluster: Empowering Large Language Models with Dynamic Memory for Text Clustering [52.41664454251679]
大規模言語モデル(LLM)は、テキストクラスタリングを行う前例のない能力を提供することで、教師なしの学習を再構築している。
既存のメソッドは、しばしば外部モジュールを持つ複雑なパイプラインに依存し、真にエンドツーエンドのアプローチを犠牲にする。
LLM-MemClusterは,クラスタリングをLLMネイティブタスクとして再認識する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-19T13:22:08Z) - Order from Chaos: Comparative Study of Ten Leading LLMs on Unstructured Data Categorization [0.0]
本研究では,非構造化テキスト分類に適用された10種類の最先端大規模言語モデル(LLM)の比較評価を行った。
この分析では、8,660人の注釈付きサンプルと同一のゼロショットプロンプトの統一データセットを使用して、すべてのモデルにおける方法論的一貫性を確保した。
その結果,現代LLMは,平均スコアが34%,精度が42%,リコールが45%,F1スコアが41%であった。
論文 参考訳(メタデータ) (2025-10-14T02:15:01Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - SentiXRL: An advanced large language Model Framework for Multilingual Fine-Grained Emotion Classification in Complex Text Environment [9.952187981270326]
我々はSentiment Cross-Lingual Recognition and Logic Framework (SentiXRL)を提案する。
SentiXRLには2つのモジュールがあり、感情検索拡張モジュールは、歴史的対話と論理的推論を通じて複雑な文脈における感情分類の精度を向上させる。
我々は、複数の標準データセット上でSentiXRLの優位性を検証し、CPEDおよびCH-SIMSの既存モデルよりも優れており、MELD、Emorynlp、IEMOCAPの全体的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-11-27T09:18:26Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
既存のスケーリングテクニック,特に選択的マージ,および混合の変種をベンチマークする。
次に、異種モデル動物園の選択と集約のための最適な戦略を定式化する。
我々の手法は、マージ可能なモデルのクラスタリング、最適なマージ戦略選択、クラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。