論文の概要: Zero-Shot Hierarchical Classification on the Common Procurement Vocabulary Taxonomy
- arxiv url: http://arxiv.org/abs/2405.09983v1
- Date: Thu, 16 May 2024 11:01:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:31:57.702553
- Title: Zero-Shot Hierarchical Classification on the Common Procurement Vocabulary Taxonomy
- Title(参考訳): 共通調達語彙分類におけるゼロショット階層分類
- Authors: Federico Moiraghi, Matteo Palmonari, Davide Allavena, Federico Morando,
- Abstract要約: 現実世界の分類から公衆の傾向を分類することは無視できない困難をもたらす。
ラベル記述のみに依存し,ラベル分類を尊重する事前学習言語モデルに基づくゼロショットアプローチを提案する。
その結果,提案モデルでは,3つの異なるベースラインと比較して,低頻度クラスを分類する際の性能が向上し,また,見つからないクラスを予測できることがわかった。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Classifying public tenders is a useful task for both companies that are invited to participate and for inspecting fraudulent activities. To facilitate the task for both participants and public administrations, the European Union presented a common taxonomy (\textit{Common Procurement Vocabulary}, CPV) which is mandatory for tenders of certain importance; however, the contracts in which a CPV label is mandatory are the minority compared to all the Public Administrations activities. Classifying over a real-world taxonomy introduces some difficulties that can not be ignored. First of all, some fine-grained classes have an insufficient (if any) number of observations in the training set, while other classes are far more frequent (even thousands of times) than the average. To overcome those difficulties, we present a zero-shot approach, based on a pre-trained language model that relies only on label description and respects the label taxonomy. To train our proposed model, we used industrial data, which comes from \url{contrattipubblici.org}, a service by \href{https://spaziodati.eu}{SpazioDati s.r.l}. that collects public contracts stipulated in Italy in the last 25 years. Results show that the proposed model achieves better performance in classifying low-frequent classes compared to three different baselines, and is also able to predict never-seen classes.
- Abstract(参考訳): 公務員の分類は、参加を招待された企業と不正行為を検査する企業の両方にとって有用なタスクである。
欧州連合は、参加者と公共行政の双方にとっての作業を容易にするため、特定の重要性の利害関係者に対して義務付けられている共通の分類 (\textit{Common Procurement Vocabulary}, CPV) を発表したが、CPVラベルが義務付けられている契約は、すべての公共行政活動と比較して少数である。
現実世界の分類を分類することは無視できない困難をもたらす。
第一に、いくつかのきめ細かいクラスはトレーニングセットで不十分な(もしあれば)観測数を持っているが、他のクラスは平均よりもはるかに頻繁に(数千回も)いる。
これらの課題を克服するため,ラベル記述のみに依存し,ラベル分類を尊重する事前学習言語モデルに基づくゼロショットアプローチを提案する。
提案したモデルをトレーニングするために、産業データを使用した。これは、 \href{https://spaziodati.eu}{SpazioDati s.r.l} のサービスである \url{contrattipubblici.org} から得られたものだ。
イタリアで過去25年間に規定された 公約を収集しています
その結果,提案モデルでは,3つの異なるベースラインと比較して,低頻度クラスを分類する際の性能が向上し,また,見つからないクラスを予測できることがわかった。
関連論文リスト
- Open-Vocabulary Temporal Action Localization using Multimodal Guidance [67.09635853019005]
OVTALでは、すべてのカテゴリのトレーニングデータを明示的にキュレートすることなく、任意のアクションカテゴリをビデオで認識することができる。
この柔軟性は、トレーニング中に見られるアクションカテゴリだけでなく、推論で指定された新しいカテゴリも認識しなければならないため、大きな課題を引き起こす。
我々は,ActionFormerを拡張した新しいオープン語彙フレームワークであるOVFormerを紹介した。
論文 参考訳(メタデータ) (2024-06-21T18:00:05Z) - Multi-Label Requirements Classification with Large Taxonomies [40.588683959176116]
大規模ラベルによる多ラベル要求分類は、要求のトレーサビリティを補助するが、教師付きトレーニングでは違法にコストがかかる。
私たちは129の要件を,250から1183のクラスから769のラベルに関連付けました。
文ベース分類は単語ベース分類と比較して有意に高いリコール率を示した。
階層的な分類戦略は要求分類の性能を必ずしも改善しなかった。
論文 参考訳(メタデータ) (2024-06-07T09:53:55Z) - Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing [38.84431954053434]
短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。
少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-05-06T15:38:32Z) - Exploring Vacant Classes in Label-Skewed Federated Learning [113.65301899666645]
クライアント間の局所的なラベル分布の相違を特徴とするラベルスキューは、連合学習において大きな課題となる。
本稿では, ラベルスキュード・フェデレート学習における新しい手法であるFedVLSについて紹介する。
論文 参考訳(メタデータ) (2024-01-04T16:06:31Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - A Universal Unbiased Method for Classification from Aggregate
Observations [115.20235020903992]
本稿では,任意の損失に対する分類リスクを非バイアスで推定するCFAOの普遍的手法を提案する。
提案手法は,非バイアスリスク推定器によるリスクの整合性を保証するだけでなく,任意の損失に対応できる。
論文 参考訳(メタデータ) (2023-06-20T07:22:01Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Weakly Supervised Classification Using Group-Level Labels [12.285265254225166]
本稿では,グループレベルのバイナリラベルを,インスタンスレベルのバイナリ分類モデルの訓練に弱い監督力として利用する手法を提案する。
グループレベルのラベルを個別のインスタンスに対してクラス条件ノイズ(CCN)ラベルとしてモデル化し,強ラベル付きインスタンスでトレーニングされたモデルの予測を正規化するためにノイズラベルを使用する。
論文 参考訳(メタデータ) (2021-08-16T20:01:45Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。