論文の概要: More Human, More Efficient: Aligning Annotations with Quantized SLMs
- arxiv url: http://arxiv.org/abs/2604.00586v1
- Date: Wed, 01 Apr 2026 07:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.890696
- Title: More Human, More Efficient: Aligning Annotations with Quantized SLMs
- Title(参考訳): より人間的で効率的:量子化されたSLMでアノテーションを調整する
- Authors: Jiayu Wang, Junyoung Lee,
- Abstract要約: 大きな言語モデル(LLM)の能力は人間の能力より優れており、自動評価やアノテーションにLLMが広く採用されている。
本研究は,限定的な人間注釈データ上で1.7Bパラメータの量子化された小言語モデルを微調整し,高度に整列された決定論的評価器および注釈器として機能する可能性について検討する。
- 参考スコア(独自算出の注目度): 7.699569505613514
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Model (LLM) capabilities advance, the demand for high-quality annotation of exponentially increasing text corpora has outpaced human capacity, leading to the widespread adoption of LLMs in automatic evaluation and annotation. However, proprietary LLMs often exhibit systematic biases that diverge from human expert consensus, lacks reproducibility, and raises data privacy concerns. Our work examines the viability of finetuning a quantized Small Language Model of 1.7B parameter size on limited human-annotated data to serve as a highly aligned, deterministic evaluator and annotator. By implementing a custom, multi-dimensional rubric framework and simple augmentation and regularization techniques, the proposed approach achieves higher inter-annotator agreement (0.23 points increase in Krippendorff's $α$) than the best performing state-of-the-art proprietary LLM. We also demonstrate the generalizability of the proposed training pipeline on a separate emotion classification task. The results show that task-specific alignment and efficient 4-bit quantized fine-tuning provide superior open-source alternative to using proprietary models for evaluation and annotation. Our finetuning approach is publicly available at https://github.com/jylee-k/slm-judge.
- Abstract(参考訳): LLM(Large Language Model)の能力が向上するにつれて、テキストコーパスが指数関数的に増加するという高品質なアノテーションの需要が人間の能力を上回っ、自動評価やアノテーションにLLMが広く採用されている。
しかしながら、プロプライエタリなLLMは、人間の専門家の合意から外れ、再現性に欠け、データのプライバシー上の懸念を提起する体系的なバイアスをしばしば示している。
本研究は,限定的な人間注釈データ上で1.7Bパラメータの量子化された小言語モデルを微調整し,高度に整列された決定論的評価器および注釈器として機能する可能性について検討する。
カスタムな多次元ルーブリックフレームワークと単純な拡張および正規化技術を実装することにより、提案手法は、最先端のプロプライエタリLCMよりも高いアノテータ間合意(0.23ポイントのKrippendorffの$α$の増加)を達成する。
また、個別の感情分類タスクにおいて、提案したトレーニングパイプラインの一般化可能性を示す。
その結果,タスク固有のアライメントと効率的な4ビット量子化ファインタニングが,評価やアノテーションに独自のモデルを使用するよりも優れたオープンソースを提供することがわかった。
私たちの微調整アプローチはhttps://github.com/jylee-k/slm-judge.comで公開されています。
関連論文リスト
- PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation [3.867363075280545]
予測パワー推論(PPI)は、最小限の人間のアノテーションとLLM(Large Language Models)を組み合わせることで、メトリクスの信頼性の高い推定値を生成する。
提案手法では,100件の人間アノテーションクエリと1万件の未ラベル例が必要であり,アノテーションの要求を大幅に低減する。
論文 参考訳(メタデータ) (2026-01-26T18:46:49Z) - Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。