論文の概要: Open Vocabulary Extreme Classification Using Generative Models
- arxiv url: http://arxiv.org/abs/2205.05812v1
- Date: Thu, 12 May 2022 00:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 01:51:38.146758
- Title: Open Vocabulary Extreme Classification Using Generative Models
- Title(参考訳): 生成モデルを用いたopen vocabulary extreme classification
- Authors: Daniel Simig, Fabio Petroni, Pouya Yanki, Kashyap Popat, Christina Du,
Sebastian Riedel, Majid Yazdani
- Abstract要約: 極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツをタグ付けすることを目的としている。
本稿では, ラベルの集合をフラットシーケンスとして生成し, 予測されたラベル順序に依存しない新たな損失を用いて訓練する GROOV を提案する。
提案手法の有効性を実証し,GROOVが与えられた語彙の外で有意なラベルを予測できるようなXMCデータセットを用いて実験を行った。
- 参考スコア(独自算出の注目度): 24.17018785195843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extreme multi-label classification (XMC) task aims at tagging content
with a subset of labels from an extremely large label set. The label vocabulary
is typically defined in advance by domain experts and assumed to capture all
necessary tags. However in real world scenarios this label set, although large,
is often incomplete and experts frequently need to refine it. To develop
systems that simplify this process, we introduce the task of open vocabulary
XMC (OXMC): given a piece of content, predict a set of labels, some of which
may be outside of the known tag set. Hence, in addition to not having training
data for some labels - as is the case in zero-shot classification - models need
to invent some labels on-the-fly. We propose GROOV, a fine-tuned seq2seq model
for OXMC that generates the set of labels as a flat sequence and is trained
using a novel loss independent of predicted label order. We show the efficacy
of the approach, experimenting with popular XMC datasets for which GROOV is
able to predict meaningful labels outside the given vocabulary while performing
on par with state-of-the-art solutions for known labels.
- Abstract(参考訳): 極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツをタグ付けすることを目的としている。
ラベルの語彙は通常、ドメインの専門家によって事前に定義され、必要なタグをすべてキャプチャすると仮定される。
しかし、現実のシナリオでは、このラベルセットは大きいが、しばしば不完全であり、専門家はそれを洗練する必要がある。
この過程を単純化するシステムを開発するために,XMC (open vocabulary XMC) というタスクを導入する。
したがって、ゼロショット分類のように、いくつかのラベルのためのトレーニングデータを持たないことに加えて、モデルはいくつかのラベルをオンザフライで発明する必要がある。
本稿では, ラベルの集合をフラットシーケンスとして生成し, 予測されたラベル順序に依存しない新たな損失を用いて訓練する GROOV を提案する。
提案手法の有効性を示し,既知のラベルに対する最先端のソリューションと同等に実行しながら,groovが与えられた語彙以外の有意義なラベルを予測できる一般的なxmcデータセットを実験する。
関連論文リスト
- Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models [3.908992369351976]
Extreme Zero-shot XMC (EZ-XMC) はXMCの特別な設定であり、監督は提供されない。
従来の最先端の手法は、文書のタイトルやセグメントから擬似ラベルを抽出する。
大規模言語モデル(LLM)からのフィードバックにより,小さなバイエンコーダモデルをトレーニングするためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T16:26:37Z) - Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:18:43Z) - Imprecise Label Learning: A Unified Framework for Learning with Various
Imprecise Label Configurations [95.12263518034939]
imprecise label learning (ILL)は、様々な不正確なラベル構成で学習を統合するためのフレームワークである。
我々は、ILLが部分ラベル学習、半教師付き学習、雑音ラベル学習にシームレスに適応できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T04:50:28Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - Extreme Zero-Shot Learning for Extreme Text Classification [80.95271050744624]
極端ゼロショットXMC (EZ-XMC) とフーショットXMC (FS-XMC) について検討した。
自己教師付きコントラスト損失のあるトランスフォーマーベースのエンコーダの事前訓練を提案する。
我々は,多スケール適応クラスタリング,ラベル正規化,擬陽性ペアによる自己学習などの手法を用いて,生テキストを徹底的に活用する事前学習手法MACLRを開発した。
論文 参考訳(メタデータ) (2021-12-16T06:06:42Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。