論文の概要: Star Temporal Classification: Sequence Classification with Partially
Labeled Data
- arxiv url: http://arxiv.org/abs/2201.12208v1
- Date: Fri, 28 Jan 2022 16:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 15:02:34.811432
- Title: Star Temporal Classification: Sequence Classification with Partially
Labeled Data
- Title(参考訳): 星時区分:部分ラベルデータを用いた系列分類
- Authors: Vineel Pratap, Awni Hannun, Gabriel Synnaeve, Ronan Collobert
- Abstract要約: 本研究では,部分ラベル付きおよび非セグメント付きシーケンシャルデータから学習できるアルゴリズムを開発した。
私たちは特別なスタートークンを使用して、トークンが失われるたびに可能なトークンをすべて含むアライメントを可能にします。
また、手書き文字認識実験を行い、本手法が他のシーケンス分類タスクにも容易に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 31.98593136313469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop an algorithm which can learn from partially labeled and
unsegmented sequential data. Most sequential loss functions, such as
Connectionist Temporal Classification (CTC), break down when many labels are
missing. We address this problem with Star Temporal Classification (STC) which
uses a special star token to allow alignments which include all possible tokens
whenever a token could be missing. We express STC as the composition of
weighted finite-state transducers (WFSTs) and use GTN (a framework for
automatic differentiation with WFSTs) to compute gradients. We perform
extensive experiments on automatic speech recognition. These experiments show
that STC can recover most of the performance of supervised baseline when up to
70% of the labels are missing. We also perform experiments in handwriting
recognition to show that our method easily applies to other sequence
classification tasks.
- Abstract(参考訳): ラベル付きおよび未指定の逐次データから学習可能なアルゴリズムを開発した。
コネクショニスト時相分類(ctc)のようなほとんどの逐次損失関数は、多くのラベルが欠落した時に崩壊する。
この問題は、特別な星のトークンを使用して、トークンが欠落するたびに可能な全てのトークンを含むアライメントを可能にするStar Temporal Classification (STC)によって解決される。
我々は、STCを重み付き有限状態トランスデューサ(WFST)の合成として表現し、GTN(WFSTによる自動微分のためのフレームワーク)を用いて勾配を計算する。
我々は自動音声認識に関する広範囲な実験を行う。
これらの実験により,STCは最大70%のラベルが欠落している場合に,教師付きベースラインの性能を回復できることがわかった。
また,手書き認識の実験を行い,この手法が他のシーケンス分類タスクにも容易に適用できることを示す。
関連論文リスト
- Agglomerative Token Clustering [61.0477253613511]
Agglomerative Token Clustering (ATC)は、新しいトークンマージ手法である。
ATCはすべてのタスクで最先端のパフォーマンスを達成でき、既定の最先端をオフ・ザ・シェルフで適用した場合と同等に動作させることができる。
論文 参考訳(メタデータ) (2024-09-18T12:37:58Z) - Semi-Supervised End-To-End Contrastive Learning For Time Series
Classification [10.635321868623883]
時系列分類は、金融、医療、センサーデータ分析など、さまざまな分野において重要な課題である。
SLOTS(Semi-supervised Learning fOr Time clasSification)と呼ばれるエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2023-10-13T04:22:21Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Semi-Supervised Cascaded Clustering for Classification of Noisy Label
Data [0.3441021278275805]
教師付き分類技術の性能は、データがノイズのあるラベルを持つと劣化することが多い。
ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。
パターンを抽出し、そのようなデータセットのクラスをカスケード木として生成する半教師付きカスケードクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-04T17:42:22Z) - Spacing Loss for Discovering Novel Categories [72.52222295216062]
新たなクラスディスカバリ(NCD)は、マシンラーニングモデルがラベルのないデータからインスタンスを意味的にグループ化する、学習パラダイムである。
まず,ラベル付きデータとラベルなしデータを併用する必要があるかどうかに基づいて,既存のNCD手法を1段階および2段階の手法に特徴付ける。
多次元スケーリングのキューを用いて、潜在空間における分離性を強制する単純で強力な損失関数を考案する。
論文 参考訳(メタデータ) (2022-04-22T09:37:11Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Boosting the Performance of Semi-Supervised Learning with Unsupervised
Clustering [10.033658645311188]
学習中の間欠的にラベルを完全に無視することは,小サンプル体制における性能を著しく向上させることを示す。
本手法は,最先端のSSLアルゴリズムの高速化に有効であることを示す。
論文 参考訳(メタデータ) (2020-12-01T14:19:14Z) - PseudoSeg: Designing Pseudo Labels for Semantic Segmentation [78.35515004654553]
ラベルなしまたは弱いラベル付きデータを用いたトレーニングのための構造化された擬似ラベルを生成するための擬似ラベルの再設計を提案する。
提案手法の有効性を,低データと高データの両方において示す。
論文 参考訳(メタデータ) (2020-10-19T17:59:30Z) - Probabilistic Label Trees for Extreme Multi-label Classification [8.347190888362194]
極端なマルチラベル分類(XMLC)の問題は,木としてラベルを整理することで効率的に処理される。
PLTは多ラベル問題に対する階層的ソフトマックスの一般化として扱うことができる。
このモデルを導入し、トレーニングと推論手順とその計算コストについて論じる。
完全にオンラインのアルゴリズムと木構造を持つアルゴリズムとの間には,特定の等価性があることを実証する。
論文 参考訳(メタデータ) (2020-09-23T15:30:00Z) - GPU-based Self-Organizing Maps for Post-Labeled Few-Shot Unsupervised
Learning [2.922007656878633]
少ないショット分類は、非常に限られたラベル付き例を使って分類器を訓練することを目的としている機械学習の課題である。
本稿では,無指導で表現を学習する分類タスクである,ラベル付き数発の教師なし学習の問題について,アノテートされたごく少数の例を用いて後述する。
論文 参考訳(メタデータ) (2020-09-04T13:22:28Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。