Fugu-MT 論文翻訳(概要): Open Vocabulary Extreme Classification Using Generative Models

論文の概要: Open Vocabulary Extreme Classification Using Generative Models

arxiv url: http://arxiv.org/abs/2205.05812v1
Date: Thu, 12 May 2022 00:33:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-14 01:51:38.146758
Title: Open Vocabulary Extreme Classification Using Generative Models
Title（参考訳）: 生成モデルを用いたopen vocabulary extreme classification
Authors: Daniel Simig, Fabio Petroni, Pouya Yanki, Kashyap Popat, Christina Du, Sebastian Riedel, Majid Yazdani
Abstract要約: 極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツをタグ付けすることを目的としている。本稿では, ラベルの集合をフラットシーケンスとして生成し, 予測されたラベル順序に依存しない新たな損失を用いて訓練する GROOV を提案する。提案手法の有効性を実証し,GROOVが与えられた語彙の外で有意なラベルを予測できるようなXMCデータセットを用いて実験を行った。
参考スコア（独自算出の注目度）: 24.17018785195843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The extreme multi-label classification (XMC) task aims at tagging content with a subset of labels from an extremely large label set. The label vocabulary is typically defined in advance by domain experts and assumed to capture all necessary tags. However in real world scenarios this label set, although large, is often incomplete and experts frequently need to refine it. To develop systems that simplify this process, we introduce the task of open vocabulary XMC (OXMC): given a piece of content, predict a set of labels, some of which may be outside of the known tag set. Hence, in addition to not having training data for some labels - as is the case in zero-shot classification - models need to invent some labels on-the-fly. We propose GROOV, a fine-tuned seq2seq model for OXMC that generates the set of labels as a flat sequence and is trained using a novel loss independent of predicted label order. We show the efficacy of the approach, experimenting with popular XMC datasets for which GROOV is able to predict meaningful labels outside the given vocabulary while performing on par with state-of-the-art solutions for known labels.
Abstract（参考訳）: 極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツをタグ付けすることを目的としている。ラベルの語彙は通常、ドメインの専門家によって事前に定義され、必要なタグをすべてキャプチャすると仮定される。しかし、現実のシナリオでは、このラベルセットは大きいが、しばしば不完全であり、専門家はそれを洗練する必要がある。この過程を単純化するシステムを開発するために,XMC (open vocabulary XMC) というタスクを導入する。したがって、ゼロショット分類のように、いくつかのラベルのためのトレーニングデータを持たないことに加えて、モデルはいくつかのラベルをオンザフライで発明する必要がある。本稿では, ラベルの集合をフラットシーケンスとして生成し, 予測されたラベル順序に依存しない新たな損失を用いて訓練する GROOV を提案する。提案手法の有効性を示し,既知のラベルに対する最先端のソリューションと同等に実行しながら,groovが与えられた語彙以外の有意義なラベルを予測できる一般的なxmcデータセットを実験する。

関連論文リスト

Modeling Multi-modal Cross-interaction for Multi-label Few-shot Image Classification Based on Local Feature Selection [55.144394711196924]
マルチラベル設定の重要な特徴は、イメージがしばしば複数のラベルを持つことである。本稿では,ラベルのプロトタイプを段階的に改良する戦略を提案する。 COCO, PASCAL VOC, NUS-WIDE, iMaterialist による実験により, このモデルにより最先端のモデルが大幅に改善されることが示された。
論文参考訳（メタデータ） (2024-12-18T11:10:18Z)
From Lazy to Prolific: Tackling Missing Labels in Open Vocabulary Extreme Classification by Positive-Unlabeled Sequence Learning [5.979699034554517]
Open-vocabulary Extreme Multi-label Classification (OXMC)は、従来のXMCを拡張し、ラベルセットが103ドルから1012ドルを超える予測を可能にする。データアノテーションにおける自己選択バイアスは、トレーニングデータとテストデータの両方に重大な欠陥ラベルをもたらす。本稿では OXMC をキーフレーズ生成タスクとして再構成する PUSL (Positive-Unlabeled Sequence Learning) を提案する。
論文参考訳（メタデータ） (2024-08-16T19:10:48Z)
Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。 X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文参考訳（メタデータ） (2024-07-08T04:52:49Z)
Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models [3.908992369351976]
Extreme Zero-shot XMC (EZ-XMC) はXMCの特別な設定であり、監督は提供されない。従来の最先端の手法は、文書のタイトルやセグメントから擬似ラベルを抽出する。大規模言語モデル(LLM)からのフィードバックにより,小さなバイエンコーダモデルをトレーニングするためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-13T16:26:37Z)
Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文参考訳（メタデータ） (2024-05-03T21:18:43Z)
Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations [91.67511167969934]
imprecise label learning (ILL)は、様々な不正確なラベル構成で学習を統合するためのフレームワークである。我々は、ILLが部分ラベル学習、半教師付き学習、雑音ラベル学習にシームレスに適応できることを実証した。
論文参考訳（メタデータ） (2023-05-22T04:50:28Z)
Exploring Structured Semantic Prior for Multi Label Recognition with Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文参考訳（メタデータ） (2023-03-23T12:39:20Z)
Cluster-Guided Label Generation in Extreme Multi-Label Classification [20.242405689985667]
我々はXMCを生成タスク(XLGen)としてキャストし、事前訓練されたテキスト-テキストモデルの恩恵を受ける。本稿では,ラベルクラスタ情報を用いたラベル生成を階層的に低レベルラベルを生成するためのガイドとして提案する。クラスタ誘導によるXLGenは、テールラベルの分類と生成ベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-02-17T21:20:36Z)
Structured Semantic Transfer for Multi-Label Recognition with Partial Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。 Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文参考訳（メタデータ） (2021-12-21T02:15:01Z)
Extreme Zero-Shot Learning for Extreme Text Classification [80.95271050744624]
極端ゼロショットXMC (EZ-XMC) とフーショットXMC (FS-XMC) について検討した。自己教師付きコントラスト損失のあるトランスフォーマーベースのエンコーダの事前訓練を提案する。我々は,多スケール適応クラスタリング,ラベル正規化,擬陽性ペアによる自己学習などの手法を用いて,生テキストを徹底的に活用する事前学習手法MACLRを開発した。
論文参考訳（メタデータ） (2021-12-16T06:06:42Z)
Label Disentanglement in Partition-based Extreme Multilabel Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文参考訳（メタデータ） (2021-06-24T03:24:18Z)
A Study on the Autoregressive and non-Autoregressive Multi-label Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文参考訳（メタデータ） (2020-12-03T05:41:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。