論文の概要: A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge
- arxiv url: http://arxiv.org/abs/2207.14443v2
- Date: Tue, 6 Jun 2023 15:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 22:02:50.141800
- Title: A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge
- Title(参考訳): 小データの学習に関するサーベイ:一般化,最適化,課題
- Authors: Xiaofeng Cao, Weixin Bu, Shengjun Huang, Minling Zhang, Ivor W. Tsang,
Yew Soon Ong, and James T. Kwok
- Abstract要約: ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
- 参考スコア(独自算出の注目度): 101.27154181792567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning on big data brings success for artificial intelligence (AI), but the
annotation and training costs are expensive. In future, learning on small data
that approximates the generalization ability of big data is one of the ultimate
purposes of AI, which requires machines to recognize objectives and scenarios
relying on small data as humans. A series of learning topics is going on this
way such as active learning and few-shot learning. However, there are few
theoretical guarantees for their generalization performance. Moreover, most of
their settings are passive, that is, the label distribution is explicitly
controlled by finite training resources from known distributions. This survey
follows the agnostic active sampling theory under a PAC (Probably Approximately
Correct) framework to analyze the generalization error and label complexity of
learning on small data in model-agnostic supervised and unsupervised fashion.
Considering multiple learning communities could produce small data
representation and related topics have been well surveyed, we thus subjoin
novel geometric representation perspectives for small data: the Euclidean and
non-Euclidean (hyperbolic) mean, where the optimization solutions including the
Euclidean gradients, non-Euclidean gradients, and Stein gradient are presented
and discussed. Later, multiple learning communities that may be improved by
learning on small data are summarized, which yield data-efficient
representations, such as transfer learning, contrastive learning, graph
representation learning. Meanwhile, we find that the meta-learning may provide
effective parameter update policies for learning on small data. Then, we
explore multiple challenging scenarios for small data, such as the weak
supervision and multi-label. Finally, multiple data applications that may
benefit from efficient small data representation are surveyed.
- Abstract(参考訳): ビッグデータの学習は人工知能(AI)の成功をもたらすが、アノテーションとトレーニングコストは高い。
将来的には、ビッグデータの一般化能力を近似した小さなデータを学ぶことが、AIの究極の目的の1つであり、マシンは小さなデータに依存する目的やシナリオを人間として認識する必要がある。
アクティブな学習や数発の学習など、一連の学習トピックがこのように進んでいる。
しかし、その一般化性能に関する理論的な保証はほとんどない。
さらに、ほとんどの設定は受動的であり、ラベル分布は既知の分布から有限のトレーニングリソースによって明示的に制御される。
本研究は, モデルに依存しない, 教師なしの手法を用いて, 小データの学習における一般化誤差とラベルの複雑さを解析するために, PAC(おそらく略正)フレームワーク下での能動サンプリング理論に従う。
複数の学習コミュニティが小さなデータ表現を生成でき、関連するトピックが十分に調査されていることを考慮し、小さなデータのための新しい幾何学的表現視点であるユークリッドと非ユークリッド(双曲的)平均(ユークリッド勾配、非ユークリッド勾配、スタイン勾配を含む最適化解を提示・議論した。
その後、小さなデータによる学習によって改善される可能性のある複数の学習コミュニティを要約し、転送学習、コントラスト学習、グラフ表現学習などのデータ効率のよい表現を生成する。
一方,メタラーニングは,小データの学習に有効なパラメータ更新ポリシーを提供する可能性がある。
次に、弱い監督やマルチラベルなど、小さなデータに対する複数の困難なシナリオを探求する。
最後に、効率的なデータ表現の恩恵を受ける複数のデータアプリケーションが調査される。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Curriculum Learning for Graph Neural Networks: Which Edges Should We
Learn First [13.37867275976255]
本研究は, 難易度から難易度, 難易度に応じて, より多くのエッジをトレーニングに組み込む新しい戦略を提案する。
提案手法の強みは,学習した表現の一般化能力とロバスト性の向上である。
論文 参考訳(メタデータ) (2023-10-28T15:35:34Z) - Exploring the Boundaries of Semi-Supervised Facial Expression Recognition using In-Distribution, Out-of-Distribution, and Unconstrained Data [23.4909421082857]
表情認識(FER)における最新の半教師あり手法11について検討する。
本研究は,非流通,アウト・オブ・ディストリビューション,制約のない,非常に小さなデータからの半教師付き学習を対象とする。
ラベル付きサンプルの数が等しいため、半教師付き学習は教師付き学習よりも大幅に改善される。
論文 参考訳(メタデータ) (2023-06-02T01:40:08Z) - Zero-shot meta-learning for small-scale data from human subjects [10.320654885121346]
我々は,サンプル外テストデータに対する限られたトレーニングデータを用いて,新しい予測タスクに迅速に適応するフレームワークを開発した。
本モデルでは, 介入による遅延処理効果を学習し, 設計上はマルチタスク予測を自然に処理できる。
我々のモデルは、より広い人口への小型人間研究の一般化を向上するために重要である。
論文 参考訳(メタデータ) (2022-03-29T17:42:04Z) - Learning from Few Examples: A Summary of Approaches to Few-Shot Learning [3.6930948691311016]
Few-Shot Learningは、いくつかのトレーニングサンプルからデータの基本パターンを学習する問題を指す。
ディープラーニングソリューションは、データ飢餓と、膨大な計算時間とリソースに悩まされている。
機械学習アプリケーション構築のターンアラウンド時間を劇的に短縮できるようなショットラーニングは、低コストのソリューションとして現れます。
論文 参考訳(メタデータ) (2022-03-07T23:15:21Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Enhancing ensemble learning and transfer learning in multimodal data
analysis by adaptive dimensionality reduction [10.646114896709717]
マルチモーダルデータ分析では、すべての観測が同じレベルの信頼性や情報品質を示すわけではない。
この問題を克服するために,次元削減のための適応的アプローチを提案する。
多様な研究分野で得られたマルチモーダルデータセットのアプローチをテストします。
論文 参考訳(メタデータ) (2021-05-08T11:53:12Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。