論文の概要: Automatic Labelling with Open-source LLMs using Dynamic Label Schema Integration
- arxiv url: http://arxiv.org/abs/2501.12332v1
- Date: Tue, 21 Jan 2025 18:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:26.410327
- Title: Automatic Labelling with Open-source LLMs using Dynamic Label Schema Integration
- Title(参考訳): 動的ラベルスキーマ統合によるオープンソースのLCMの自動ラベリング
- Authors: Thomas Walshe, Sae Young Moon, Chunyang Xiao, Yawwani Gunawardana, Fran Silavong,
- Abstract要約: 自動ラベリングにオープンソースモデルを効果的に活用することを検討する。
LLMが1つのラベルに対して1度に推論を行うRAC(Retrieval Augmented Classification)を提案する。
ラベル記述を動的に統合した本手法は,ラベル処理における性能改善につながることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Acquiring labelled training data remains a costly task in real world machine learning projects to meet quantity and quality requirements. Recently Large Language Models (LLMs), notably GPT-4, have shown great promises in labelling data with high accuracy. However, privacy and cost concerns prevent the ubiquitous use of GPT-4. In this work, we explore effectively leveraging open-source models for automatic labelling. We identify integrating label schema as a promising technology but found that naively using the label description for classification leads to poor performance on high cardinality tasks. To address this, we propose Retrieval Augmented Classification (RAC) for which LLM performs inferences for one label at a time using corresponding label schema; we start with the most related label and iterates until a label is chosen by the LLM. We show that our method, which dynamically integrates label description, leads to performance improvements in labelling tasks. We further show that by focusing only on the most promising labels, RAC can trade off between label quality and coverage - a property we leverage to automatically label our internal datasets.
- Abstract(参考訳): ラベル付きトレーニングデータを取得することは、量と品質要件を満たすために、現実世界の機械学習プロジェクトにおいて、依然としてコストのかかる作業である。
最近のLLM(Large Language Models)、特にGPT-4は、データのラベル付けを高精度に行うことを約束している。
しかし、プライバシーとコストに関する懸念は、GPT-4のユビキタス使用を妨げている。
本研究では,オープンソースモデルを自動ラベリングに効果的に活用することを検討する。
我々はラベルスキーマの統合を有望な技術として認識するが,分類にラベル記述を用いることで,高濃度タスクの性能が低下することが判明した。
そこで本稿では,ラベルスキーマを用いてラベルの推論を行うRAC(Retrieval Augmented Classification)を提案する。
ラベル記述を動的に統合した本手法は,ラベル処理における性能改善につながることを示す。
さらに、最も有望なラベルのみに焦点を当てることで、RACはラベルの品質とカバレッジをトレードオフすることが可能であることを示しています。
関連論文リスト
- Leveraging Label Semantics and Meta-Label Refinement for Multi-Label Question Classification [11.19022605804112]
本稿では,新手法RR2QCを多ラベル質問分類に適用する。
ラベルセマンティクスとメタラベルの改良を使用して、パーソナライズされた学習とリソースレコメンデーションを強化する。
実験の結果,RR2QCはPrecision@kとF1スコアの既存の分類方法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-04T06:27:14Z) - Exploiting Conjugate Label Information for Multi-Instance Partial-Label Learning [61.00359941983515]
MIPL(Multi-instance partial-label Learning)は、各トレーニングサンプルが1つの真のラベルといくつかの偽陽性を含む候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現されるシナリオに対処する。
ELIMIPLは共役ラベル情報を利用して曖昧性を改善する。
論文 参考訳(メタデータ) (2024-08-26T15:49:31Z) - Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations [91.67511167969934]
imprecise label learning (ILL)は、様々な不正確なラベル構成で学習を統合するためのフレームワークである。
我々は、ILLが部分ラベル学習、半教師付き学習、雑音ラベル学習にシームレスに適応できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T04:50:28Z) - Contrastive Label Enhancement [13.628665406039609]
コントラスト学習戦略により高次特徴を生成するコントラストラベル拡張(Contrastive Label Enhancement, ConLE)を提案する。
得られた高レベルな特徴を活用し、よく設計されたトレーニング戦略によりラベル分布を得る。
論文 参考訳(メタデータ) (2023-05-16T14:53:07Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - AutoWS: Automated Weak Supervision Framework for Text Classification [1.748907524043535]
本稿では、ドメインエキスパートへの依存を減らしつつ、弱い監督プロセスの効率を高めるための新しい枠組みを提案する。
本手法では,ラベルクラス毎にラベル付きサンプルの小さなセットが必要であり,多数のラベル付きデータにノイズ付きラベルを割り当てるラベル付き関数のセットを自動生成する。
論文 参考訳(メタデータ) (2023-02-07T07:12:05Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。