論文の概要: Theoretical Foundations of Representation Learning using Unlabeled Data: Statistics and Optimization
- arxiv url: http://arxiv.org/abs/2509.18997v2
- Date: Thu, 02 Oct 2025 13:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.109872
- Title: Theoretical Foundations of Representation Learning using Unlabeled Data: Statistics and Optimization
- Title(参考訳): ラベルなしデータを用いた表現学習の理論的基礎:統計学と最適化
- Authors: Pascal Esser, Maximilian Fleissner, Debarghya Ghoshdastidar,
- Abstract要約: ラベルのないデータからの表現学習は、統計学、データサイエンス、信号処理において広く研究されている。
現在のディープラーニングモデルは、古典理論では容易には分析できない教師なし表現学習の新しい原則を使用している。
ヴィジュアルファウンデーションモデルは、セルフスーパービジョンやデノイング/マスケインオートエンコーダを使って素晴らしい成功を収めています。
- 参考スコア(独自算出の注目度): 9.69858219543662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning from unlabeled data has been extensively studied in statistics, data science and signal processing with a rich literature on techniques for dimension reduction, compression, multi-dimensional scaling among others. However, current deep learning models use new principles for unsupervised representation learning that cannot be easily analyzed using classical theories. For example, visual foundation models have found tremendous success using self-supervision or denoising/masked autoencoders, which effectively learn representations from massive amounts of unlabeled data. However, it remains difficult to characterize the representations learned by these models and to explain why they perform well for diverse prediction tasks or show emergent behavior. To answer these questions, one needs to combine mathematical tools from statistics and optimization. This paper provides an overview of recent theoretical advances in representation learning from unlabeled data and mentions our contributions in this direction.
- Abstract(参考訳): ラベルのないデータからの表現学習は、統計学、データサイエンス、信号処理において、次元の縮小、圧縮、多次元スケーリングなどの技術に関する豊富な文献で広く研究されている。
しかし、現在のディープラーニングモデルは、古典理論では容易には分析できない教師なし表現学習の新しい原則を使用している。
例えば、ビジュアルファウンデーションモデルは、大量のラベルのないデータから表現を効果的に学習するセルフスーパービジョンやデノイング/マスケードオートエンコーダを使用して、大きな成功を収めています。
しかし、これらのモデルによって学習された表現を特徴づけることは困難であり、なぜそれらが多様な予測タスクのためにうまく機能するか、あるいは創発的な振る舞いを示すのかを説明することは困難である。
これらの質問に答えるためには、統計と最適化の数学的ツールを組み合わせる必要がある。
本稿では、ラベルなしデータからの表現学習における最近の理論的進歩の概要と、この方向における我々の貢献について述べる。
関連論文リスト
- When and How Unlabeled Data Provably Improve In-Context Learning [31.201385551730926]
教師なしの学習は、デモが欠落したり、誤ったラベルがあったりしても効果的である。
我々は,sum_ige 0 a_i (Xtop X)iXtop y$ と $X$ と $y$ の機能と部分観測ラベルを暗黙的に構築することで,ラベル付きデータを効果的に活用できることを示す。
論文 参考訳(メタデータ) (2025-06-18T10:01:17Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Pseudo-Representation Labeling Semi-Supervised Learning [0.0]
近年、半教師付き学習は、ラベルのないデータを活用してディープラーニングモデルの性能向上に成功している。
本研究は、擬似ラベル付け技術を用いて少量の未ラベルデータを反復的にラベル付けし、それらをトレーニングデータとして使用する、シンプルで柔軟なフレームワークである擬似表現ラベリングを提案する。
従来の手法と比較して、擬似表現ラベリングはより直感的であり、現実世界の実践的な問題を効果的に解決することができる。
論文 参考訳(メタデータ) (2020-05-31T03:55:41Z) - Out-of-Sample Representation Learning for Multi-Relational Graphs [8.956321788625894]
非分散知識グラフに対するアウトオブサンプル表現学習問題について検討する。
このタスクのためのベンチマークデータセットを作成し、いくつかのモデルとベースラインを開発し、提案したモデルとベースラインの実証分析と比較を提供する。
論文 参考訳(メタデータ) (2020-04-28T00:53:01Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。