論文の概要: From LLM-anation to LLM-orchestrator: Coordinating Small Models for Data Labeling
- arxiv url: http://arxiv.org/abs/2506.16393v1
- Date: Thu, 19 Jun 2025 15:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.131084
- Title: From LLM-anation to LLM-orchestrator: Coordinating Small Models for Data Labeling
- Title(参考訳): LLM-anationからLCM-orchestratorへ:データラベリングのための小さなモデルを調整する
- Authors: Yao Lu, Zhaiyuan Ji, Jiawei Du, Yu Shanqing, Qi Xuan, Tianyi Zhou,
- Abstract要約: AutoAnnotatorは、マルチモデル協調アノテーションに基づく完全な自動アノテーションフレームワークである。
GPT-3.5-turboと直接アノテートした場合に比べ、アノテーションのコストは74.15%削減され、精度は6.21%向上した。
- 参考スコア(独自算出の注目度): 22.138592933595884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the annotation paradigm based on Large Language Models (LLMs) has made significant breakthroughs in recent years, its actual deployment still has two core bottlenecks: first, the cost of calling commercial APIs in large-scale annotation is very expensive; second, in scenarios that require fine-grained semantic understanding, such as sentiment classification and toxicity classification, the annotation accuracy of LLMs is even lower than that of Small Language Models (SLMs) dedicated to this field. To address these problems, we propose a new paradigm of multi-model cooperative annotation and design a fully automatic annotation framework AutoAnnotator based on this. Specifically, AutoAnnotator consists of two layers. The upper-level meta-controller layer uses the generation and reasoning capabilities of LLMs to select SLMs for annotation, automatically generate annotation code and verify difficult samples; the lower-level task-specialist layer consists of multiple SLMs that perform annotation through multi-model voting. In addition, we use the difficult samples obtained by the secondary review of the meta-controller layer as the reinforcement learning set and fine-tune the SLMs in stages through a continual learning strategy, thereby improving the generalization of SLMs. Extensive experiments show that AutoAnnotator outperforms existing open-source/API LLMs in zero-shot, one-shot, CoT, and majority voting settings. Notably, AutoAnnotator reduces the annotation cost by 74.15% compared to directly annotating with GPT-3.5-turbo, while still improving the accuracy by 6.21%. Project page: https://github.com/Zhaiyuan-Ji/AutoAnnotator.
- Abstract(参考訳): ひとつは、大規模なアノテーションで商用APIを呼び出すコストが非常に高く、もうひとつは、感情分類や毒性分類といった詳細なセマンティックな理解を必要とするシナリオにおいて、LLMのアノテーションの精度は、この分野に特化したSmall Language Models(SLM)よりもさらに低い。
これらの問題に対処するため、我々はマルチモデル協調アノテーションの新しいパラダイムを提案し、これに基づく完全自動アノテーションフレームワークAutoAnnotatorを設計する。
具体的にはAutoAnnotatorは2つのレイヤから構成される。
上層メタコントローラ層は、LPMの生成と推論機能を使用して、アノテーションのためのSLMを選択し、アノテーションコードを自動的に生成し、難しいサンプルを検証する。
さらに, メタコントローラ層を二次的なレビューによって得られた難解なサンプルを強化学習セットとして使用し, 連続学習戦略により段階的にSLMを微調整することにより, SLMの一般化を向上する。
大規模な実験によると、AutoAnnotatorは、ゼロショット、ワンショット、CoT、多数決設定で、既存のオープンソース/API LLMを上回っている。
特にAutoAnnotatorはGPT-3.5-turboと直接アノテートした場合に比べてアノテーションのコストを74.15%削減し、精度は6.21%向上した。
プロジェクトページ: https://github.com/Zhaiyuan-Ji/AutoAnnotator.com
関連論文リスト
- SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [70.01883340129204]
シングルパス。
リファレンスガイドによる評価(SPARE)
参照ソリューションにおける各ソリューションステップを1つまたは複数のステップにアライメントすることで、単一のパス毎のアノテーションを可能にする新しい構造化フレームワーク。
SPAREは2.6倍の効率を実現し、実行時の38%しか必要としない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - Entity Alignment with Noisy Annotations from Large Language Models [15.189701951003611]
我々は,大規模言語モデルをEAに効果的に活用するための統一フレームワーク LLM4EA を提案する。
具体的には、アノテーション空間を大幅に削減するために、新しいアクティブな学習ポリシーを設計する。
基本EAモデルからのフィードバックに基づいて、ポリシーを反復的に最適化します。
論文 参考訳(メタデータ) (2024-05-27T03:52:55Z) - TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Large Language Models for Data Annotation and Synthesis: A Survey [49.8318827245266]
本調査は,データアノテーションと合成のための大規模言語モデルの有用性に焦点を当てる。
LLMがアノテートできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションと合成にLLMを使用する際の主な課題と制限に関する詳細な議論を含む。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。