論文の概要: openXDATA: A Tool for Multi-Target Data Generation and Missing Label
Completion
- arxiv url: http://arxiv.org/abs/2007.13889v1
- Date: Mon, 27 Jul 2020 22:05:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 11:54:09.438404
- Title: openXDATA: A Tool for Multi-Target Data Generation and Missing Label
Completion
- Title(参考訳): openXDATA: マルチターゲットデータ生成とラベル補完の欠如のためのツール
- Authors: Felix Weninger, Yue Zhang, Rosalind W. Picard
- Abstract要約: 機械学習の一般的な問題は、不整合ラベル空間と欠落ラベルを持つデータセットを扱うことである。
本研究では,一部ラベル付きあるいは非ラベル付きデータセットで不足ラベルを補完するopenXdataツールを紹介する。
根拠となる真理値に近づいたレートで、すべてのデータセットに対してカテゴリと連続ラベルの両方を推定する能力を示す。
- 参考スコア(独自算出の注目度): 23.14045574165086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common problem in machine learning is to deal with datasets with disjoint
label spaces and missing labels. In this work, we introduce the openXDATA tool
that completes the missing labels in partially labelled or unlabelled datasets
in order to generate multi-target data with labels in the joint label space of
the datasets. To this end, we designed and implemented the cross-data label
completion (CDLC) algorithm that uses a multi-task shared-hidden-layer DNN to
iteratively complete the sparse label matrix of the instances from the
different datasets. We apply the new tool to estimate labels across four
emotion datasets: one labeled with discrete emotion categories (e.g., happy,
sad, angry), one labeled with continuous values along arousal and valence
dimensions, one with both kinds of labels, and one unlabeled. Testing with
drop-out of true labels, we show the ability to estimate both categories and
continuous labels for all of the datasets, at rates that approached the ground
truth values. openXDATA is available under the GNU General Public License from
https://github.com/fweninger/openXDATA.
- Abstract(参考訳): 機械学習の一般的な問題は、ラベル空間とラベルの欠落したデータセットを扱うことだ。
本研究では,OpenXDATAツールを導入し,ラベル付きデータセットやラベルなしデータセットの欠落ラベルを補完し,データセットのジョイントラベル空間におけるラベル付きマルチターゲットデータを生成する。
そこで我々は,マルチタスク共有隠れ層DNNを用いて,異なるデータセットからインスタンスのスパースラベル行列を反復的に完了するクロスデータラベル補完(CDLC)アルゴリズムを設計,実装した。
4つの感情データセットのラベルを推定するために、新しいツールを適用した。1つは、個別の感情カテゴリー(例えば、幸せ、悲しみ、怒り)でラベル付けされ、もう1つは、覚醒次元と原子価次元に沿って連続的な値でラベル付けされ、もう1つはラベル付けされていない。
真のラベルをドロップアウトしてテストすると、すべてのデータセットのカテゴリと連続ラベルの両方を、根拠となる真理値に近づく割合で見積もる能力が示されます。
openXDATAは、https://github.com/fweninger/openXDATAからGNU General Public Licenseで入手できる。
関連論文リスト
- Exploiting Conjugate Label Information for Multi-Instance Partial-Label Learning [61.00359941983515]
MIPL(Multi-instance partial-label Learning)は、各トレーニングサンプルが1つの真のラベルといくつかの偽陽性を含む候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現されるシナリオに対処する。
ELIMIPLは共役ラベル情報を利用して曖昧性を改善する。
論文 参考訳(メタデータ) (2024-08-26T15:49:31Z) - You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Complementary to Multiple Labels: A Correlation-Aware Correction
Approach [65.59584909436259]
理論上, マルチクラスCLLにおける遷移行列が, 複数ラベルの場合どのように歪むかを示す。
候補ラベルから遷移行列を推定する2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-02-25T04:48:48Z) - TransPOS: Transformers for Consolidating Different POS Tagset Datasets [0.8399688944263843]
本稿では、異なるタグ付け方式の下で、POSタグをラベル付けする2つのデータセットについて考察する。
完全に結合しない2つのデータセットを統合する問題に対処するため,Transformerを用いた新しい教師付きアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-24T08:43:53Z) - Learning Semantic Segmentation from Multiple Datasets with Label Shifts [101.24334184653355]
本論文では,ラベル空間が異なる複数のデータセットを対象としたモデルの自動学習手法であるUniSegを提案する。
具体的には,ラベルの相反と共起を考慮に入れた2つの損失を提案する。
論文 参考訳(メタデータ) (2022-02-28T18:55:19Z) - ECLARE: Extreme Classification with Label Graph Correlations [13.429436351837653]
本稿では,ラベルテキストだけでなくラベル相関も組み込んだスケーラブルなディープラーニングアーキテクチャECLAREを提案し,数ミリ秒以内の正確なリアルタイム予測を実現する。
ECLAREは、Bing検索エンジンからソースされた関連製品レコメンデーションタスク用のプロプライエタリデータセットと同様に、公開可能なベンチマークデータセットの両方で2~14%精度の予測を提供する。
論文 参考訳(メタデータ) (2021-07-31T15:13:13Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Unsupervised Multi-label Dataset Generation from Web Data [2.267916014951237]
本稿では,Webデータからマルチラベルデータセットを教師なしで生成するシステムを提案する。
シングルラベルデータセットの生成は、教師なしノイズ低減フェーズ(アンカーを使用したクラスタのクラスタリングと選択)を使用して、正しくラベル付けされた画像の85%を取得する。
次に、クラスアクティベーションマップと各クラスに関連する不確実性を用いて、データセット内の画像に新しいラベルを割り当てる、教師なしラベル拡張処理を実行する。
論文 参考訳(メタデータ) (2020-05-12T08:57:59Z) - Beyond without Forgetting: Multi-Task Learning for Classification with
Disjoint Datasets [27.570773346794613]
解離データセットを用いた分類のためのマルチタスク学習(MTL)は、ひとつのタスクにラベル付きデータセットが1つしかない場合、MTLを探索することを目的としている。
半教師付き学習にインスパイアされ、擬似ラベル付きラベル付きラベル付きデータセットを使用して各タスクを容易にする。
提案手法は,ラベル付きデータセットに信頼度の高い擬似ラベルを持つラベル付きデータセットのトレーニングサンプルを選択し,ラベル付きデータセットに密接なデータ配信を行うための,選択型拡張(MTL-SA)法である。
論文 参考訳(メタデータ) (2020-03-15T03:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。