論文の概要: Masked prediction tasks: a parameter identifiability view
- arxiv url: http://arxiv.org/abs/2202.09305v1
- Date: Fri, 18 Feb 2022 17:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 13:16:18.676439
- Title: Masked prediction tasks: a parameter identifiability view
- Title(参考訳): マスケ予測タスク:パラメータ識別可能性の観点から
- Authors: Bingbin Liu, Daniel Hsu, Pradeep Ravikumar, Andrej Risteski
- Abstract要約: マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
- 参考スコア(独自算出の注目度): 49.533046139235466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of work in self-supervised learning, both theoretical and
empirical (though mostly the latter), have largely focused on recovering good
features for downstream tasks, with the definition of "good" often being
intricately tied to the downstream task itself. This lens is undoubtedly very
interesting, but suffers from the problem that there isn't a "canonical" set of
downstream tasks to focus on -- in practice, this problem is usually resolved
by competing on the benchmark dataset du jour.
In this paper, we present an alternative lens: one of parameter
identifiability. More precisely, we consider data coming from a parametric
probabilistic model, and train a self-supervised learning predictor with a
suitably chosen parametric form. Then, we ask whether we can read off the
ground truth parameters of the probabilistic model from the optimal predictor.
We focus on the widely used self-supervised learning method of predicting
masked tokens, which is popular for both natural languages and visual data.
While incarnations of this approach have already been successfully used for
simpler probabilistic models (e.g. learning fully-observed undirected graphical
models), we focus instead on latent-variable models capturing sequential
structures -- namely Hidden Markov Models with both discrete and conditionally
Gaussian observations. We show that there is a rich landscape of possibilities,
out of which some prediction tasks yield identifiability, while others do not.
Our results, borne of a theoretical grounding of self-supervised learning,
could thus potentially beneficially inform practice. Moreover, we uncover close
connections with uniqueness of tensor rank decompositions -- a widely used tool
in studying identifiability through the lens of the method of moments.
- Abstract(参考訳): 自己教師付き学習におけるほとんどの作業は、理論上も経験的でも(ほとんどが後者であるが)、下流タスクの優れた機能を回復することに集中しており、「良い」の定義はしばしば下流タスク自体と複雑に結びついている。
このレンズは間違いなく非常に興味深いものですが、ダウンストリームタスクの"canonical"セットが存在しないという問題に苦しんでいます。
本稿では、パラメータ識別性の一つとして、代替レンズを提案する。
より正確には、パラメトリック確率モデルからのデータを考慮し、適切に選択されたパラメトリック形式で自己教師付き学習予測器を訓練する。
次に、最適予測器から確率モデルの基底的真理パラメータを読み取ることができるかどうかを問う。
自然言語と視覚データの両方に共通するマスクトークンを予測する,広範に使用されている自己教師付き学習手法に注目した。
このアプローチのインカーネーションは、より単純な確率モデル(例えば、完全に観測されていないグラフィカルモデルを学ぶ)に既にうまく使われているが、代わりに、逐次構造をキャプチャする潜在変数モデル、すなわち離散的および条件的ガウス的観測の両方を持つ隠れマルコフモデルに焦点を当てている。
我々は,可能性の豊かな景観が存在することを示し,その内,予測タスクによって識別可能となるものもあれば,そうでないものもある。
この結果は,自己指導型学習の理論的根拠に基づくものであり,実践に有益な影響を与える可能性がある。
さらに、テンソル階数分解の特異性との密接な関係を明らかにする。これはモーメント法のレンズによる識別可能性の研究において広く用いられているツールである。
関連論文リスト
- ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Certifying Fairness of Probabilistic Circuits [33.1089249944851]
本稿では,確率論的モデル,すなわち確率論的回路の一般クラスにおいて,識別パターンを探索するアルゴリズムを提案する。
また、指数関数的に多くの識別パターンを効果的に要約できる最小パターン、最大パターン、最適パターンなどの新しいパターンのクラスも導入する。
論文 参考訳(メタデータ) (2022-12-05T18:36:45Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Visual Recognition with Deep Learning from Biased Image Datasets [6.10183951877597]
視覚認知の文脈において、バイアスモデルがどのように治療問題に適用できるかを示す。
作業中のバイアス機構に関する(近似的な)知識に基づいて、我々のアプローチは観察を再重み付けする。
本稿では,画像データベース間で共有される低次元画像表現を提案する。
論文 参考訳(メタデータ) (2021-09-06T10:56:58Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Robust Out-of-Distribution Detection on Deep Probabilistic Generative
Models [0.06372261626436676]
アウト・オブ・ディストリビューション(OOD)検出は機械学習システムにおいて重要な課題である。
深い確率的生成モデルは、データサンプルの可能性を推定することによって、OODの検出を容易にする。
本稿では,外周露光を伴わない新しい検出指標を提案する。
論文 参考訳(メタデータ) (2021-06-15T06:36:10Z) - Discriminative, Generative and Self-Supervised Approaches for
Target-Agnostic Learning [8.666667951130892]
生成的および自己教師型学習モデルは、そのタスクでうまく機能することが示されている。
擬似相似理論の導出した定理は、結合分布モデルの推定に関係があることも示している。
論文 参考訳(メタデータ) (2020-11-12T15:03:40Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。