論文の概要: Investigating Semi-Supervised Learning Algorithms in Text Datasets
- arxiv url: http://arxiv.org/abs/2401.01843v2
- Date: Sun, 7 Jan 2024 11:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:12:12.146100
- Title: Investigating Semi-Supervised Learning Algorithms in Text Datasets
- Title(参考訳): テキストデータセットにおける半教師あり学習アルゴリズムの検討
- Authors: Himmet Toprak Kesgin, Mehmet Fatih Amasyali
- Abstract要約: 大きなトレーニングデータセットを使用することで、ニューラルネットワークの一般化能力が向上する。
半教師付き学習(SSL)は、ラベル付きデータが少なく、ラベルなしデータが多い場合に有用である。
本研究では、自己学習、協調学習、三者学習、不一致を伴う三者学習など、拡張を必要としないSSLアルゴリズムを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using large training datasets enhances the generalization capabilities of
neural networks. Semi-supervised learning (SSL) is useful when there are few
labeled data and a lot of unlabeled data. SSL methods that use data
augmentation are most successful for image datasets. In contrast, texts do not
have consistent augmentation methods as images. Consequently, methods that use
augmentation are not as effective in text data as they are in image data. In
this study, we compared SSL algorithms that do not require augmentation; these
are self-training, co-training, tri-training, and tri-training with
disagreement. In the experiments, we used 4 different text datasets for
different tasks. We examined the algorithms from a variety of perspectives by
asking experiment questions and suggested several improvements. Among the
algorithms, tri-training with disagreement showed the closest performance to
the Oracle; however, performance gap shows that new semi-supervised algorithms
or improvements in existing methods are needed.
- Abstract(参考訳): 大きなトレーニングデータセットを使用することで、ニューラルネットワークの一般化能力が向上する。
半教師付き学習(SSL)は、ラベル付きデータが少なく、ラベルなしデータが多い場合に有用である。
データ拡張を使用するSSLメソッドは、イメージデータセットで最も成功している。
対照的に、テキストは画像として一貫した拡張方法を持っていない。
したがって、拡張を使用するメソッドは、画像データにあるようなテキストデータでは有効ではない。
本研究では, 自己学習, 共学習, トライトレーニング, トリトレーニングなど, 拡張を必要としないsslアルゴリズムを比較した。
実験では、異なるタスクに4つの異なるテキストデータセットを使用しました。
実験的な質問をすることで,様々な視点からアルゴリズムを検証し,いくつかの改善を提案する。
アルゴリズムの中で、意見の一致によるトリトレーニングは、Oracleに最も近いパフォーマンスを示したが、パフォーマンスのギャップは、新しい半教師付きアルゴリズムや既存のメソッドの改善が必要であることを示している。
関連論文リスト
- On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Augmentations vs Algorithms: What Works in Self-Supervised Learning [9.194402355758164]
自己監督学習(SSL)におけるデータ強化,事前学習アルゴリズム,モデルアーキテクチャの相対効果について検討する。
異なるSSLメソッドを単一の共有テンプレートに統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T23:42:06Z) - Can semi-supervised learning use all the data effectively? A lower bound
perspective [58.71657561857055]
半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習アルゴリズムのラベル付きサンプル複雑性を改善することができることを示す。
我々の研究は、SSLアルゴリズムのパフォーマンス向上を証明することは可能だが、定数の注意深く追跡する必要があることを示唆している。
論文 参考訳(メタデータ) (2023-11-30T13:48:50Z) - TrueDeep: A systematic approach of crack detection with less data [0.0]
ドメイン知識をディープラーニングアーキテクチャと組み合わせることで、少ないデータで同様のパフォーマンスを実現することができることを示す。
我々のアルゴリズムは、全データの23%で開発され、テストデータ上でも同様の性能を持ち、複数の盲点データセット上では大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-05-30T14:51:58Z) - Evolutionary Augmentation Policy Optimization for Self-supervised
Learning [10.087678954934155]
自己教師付き学習は、手動でラベル付けされたデータを必要としないディープニューラルネットワーク(DNN)の事前トレーニングのための機械学習アルゴリズムである。
本稿では,自己教師付き学習アルゴリズムの性能向上に対する拡張演算子の貢献について検討する。
論文 参考訳(メタデータ) (2023-03-02T21:16:53Z) - A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends [82.64268080902742]
自己教師付き学習(SSL)は、ラベル付きラベルを頼らずにラベル付きデータから識別的特徴を学習することを目的としている。
SSLは最近大きな注目を集め、多くの関連するアルゴリズムの開発に繋がった。
本稿では,アルゴリズム的側面,アプリケーション領域,3つの重要なトレンド,オープンな研究課題を含む,多様なSSL手法のレビューを行う。
論文 参考訳(メタデータ) (2023-01-13T14:41:05Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation [2.1915057426589746]
オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
誤報の拡散による悪影響を抑えるために, 自動的噂検出技術が必要である。
本研究では、BERTに基づく事前学習言語モデルを用いて、テキストデータをベクトルにエンコードし、ニューラルネットワークモデルを用いてこれらのベクトルを分類し、誤情報を検出する。
論文 参考訳(メタデータ) (2022-03-15T08:54:36Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。