論文の概要: Order from Chaos: Comparative Study of Ten Leading LLMs on Unstructured Data Categorization
- arxiv url: http://arxiv.org/abs/2510.13885v1
- Date: Tue, 14 Oct 2025 02:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.510385
- Title: Order from Chaos: Comparative Study of Ten Leading LLMs on Unstructured Data Categorization
- Title(参考訳): カオスからの順序:非構造化データ分類における10個のLLMの比較研究
- Authors: Ariel Kamen,
- Abstract要約: 本研究では,非構造化テキスト分類に適用された10種類の最先端大規模言語モデル(LLM)の比較評価を行った。
この分析では、8,660人の注釈付きサンプルと同一のゼロショットプロンプトの統一データセットを使用して、すべてのモデルにおける方法論的一貫性を確保した。
その結果,現代LLMは,平均スコアが34%,精度が42%,リコールが45%,F1スコアが41%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study presents a comparative evaluation of ten state-of-the-art large language models (LLMs) applied to unstructured text categorization using the Interactive Advertising Bureau (IAB) 2.2 hierarchical taxonomy. The analysis employed a uniform dataset of 8,660 human-annotated samples and identical zero-shot prompts to ensure methodological consistency across all models. Evaluation metrics included four classic measures - accuracy, precision, recall, and F1-score - and three LLM-specific indicators: hallucination ratio, inflation ratio, and categorization cost. Results show that, despite their rapid advancement, contemporary LLMs achieve only moderate classic performance, with average scores of 34% accuracy, 42% precision, 45% recall, and 41% F1-score. Hallucination and inflation ratios reveal that models frequently overproduce categories relative to human annotators. Among the evaluated systems, Gemini 1.5/2.0 Flash and GPT 20B/120B offered the most favorable cost-to-performance balance, while GPT 120B demonstrated the lowest hallucination ratio. The findings suggest that scaling and architectural improvements alone do not ensure better categorization accuracy, as the task requires compressing rich unstructured text into a limited taxonomy - a process that challenges current model architectures. To address these limitations, a separate ensemble-based approach was developed and tested. The ensemble method, in which multiple LLMs act as independent experts, substantially improved accuracy, reduced inflation, and completely eliminated hallucinations. These results indicate that coordinated orchestration of models - rather than sheer scale - may represent the most effective path toward achieving or surpassing human-expert performance in large-scale text categorization.
- Abstract(参考訳): 本研究では,対話広告局 (IAB) 2.2 の階層型分類法を用いて,非構造化テキスト分類に応用した10種類の最先端大規模言語モデル (LLM) の比較評価を行った。
この分析では、8,660人の注釈付きサンプルと同一のゼロショットプロンプトの統一データセットを使用して、すべてのモデルにおける方法論的一貫性を確保した。
評価指標には、精度、精度、リコール、F1スコアの4つの古典的な尺度と、幻覚率、インフレ率、カテゴリー化コストの3つのLSM固有の指標が含まれていた。
その結果,従来のLLMでは34%の精度,42%の精度,45%のリコール,41%のF1スコアが得られた。
幻覚とインフレーション比は、モデルが人間のアノテータに対するカテゴリを過剰に生成することを示している。
評価システムの中では、Gemini 1.5/2.0 FlashとGPT 20B/120Bが最も好適なコスト対パフォーマンスバランスを提供し、GPT 120Bは最も低い幻覚比を示した。
この結果から,拡張性やアーキテクチャの改善だけでは,分類の精度が向上しないことが示唆されている。
これらの制限に対処するため、別のアンサンブルベースのアプローチを開発し、テストした。
複数のLDMが独立した専門家として機能するアンサンブル法は、精度を大幅に向上し、インフレーションを低減し、幻覚を完全に排除した。
これらの結果は,大規模なテキスト分類において,人間の専門的性能を達成あるいは超越する上で,モデルのコーディネート化が最も有効な方法であることを示している。
関連論文リスト
- Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - Advanced Multi-Architecture Deep Learning Framework for BIRADS-Based Mammographic Image Retrieval: Comprehensive Performance Analysis with Super-Ensemble Optimization [0.0]
マンモグラフィ画像検索システムでは、5つの異なるクラスにまたがる正確なBIRADSカテゴリマッチングが必要である。
現在の医用画像検索研究は方法論的限界に悩まされている。
論文 参考訳(メタデータ) (2025-08-06T18:05:18Z) - Escaping the SpuriVerse: Can Large Vision-Language Models Generalize Beyond Seen Spurious Correlations? [37.703287009808896]
微調整は、非重要特徴とターゲットラベルの間に急激な相関を引き起こす可能性がある。
実世界の視覚探索探索(VQA)ベンチマークにおいて,GPT-4oエラーを抽出してベンチマークを作成する。
SpuriVerse上で15のオープンソースLVLMを評価し、最先端のクローズドソースモデルでもかなり苦労していることを発見した。
論文 参考訳(メタデータ) (2025-06-23T06:11:43Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Investigating the Limitation of CLIP Models: The Worst-Performing
Categories [53.360239882501325]
コントラスト言語-画像事前学習(CLIP)は、自然言語を視覚概念に統合する基礎モデルを提供する。
通常、十分に設計されたテキストプロンプトによって、多くの領域で満足な全体的な精度が達成できると期待されている。
しかし、最悪のカテゴリにおけるパフォーマンスは、全体的なパフォーマンスよりも著しく劣っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T05:37:33Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。