論文の概要、ライセンス

# (参考訳) メタラーニングのための確率的タスクモデリング [全文訳有]

Probabilistic task modelling for meta-learning ( http://arxiv.org/abs/2106.04802v1 )

ライセンス: CC BY 4.0
Cuong C. Nguyen and Thanh-Toan Do and Gustavo Carneiro(参考訳) メタラーニングに使用されるタスクの集合に対する生成的確率モデルである確率的タスクモデリングを提案する。 提案モデルは変分オートエンコーディングと潜在ディリクレ割当を組み合わせ、各タスクを埋め込み空間内のガウス分布の混合としてモデル化する。 このようなモデリングはタスク-テーマの混合を通じてタスクの明示的な表現を提供する。 経験的ベイズ推定のための変分推定法に基づく効率的な近似推定手法を提案する。 提案手法により得られたタスクの不確かさとタスク距離を,テストタスクにおける予測精度の相関図を用いて検証する。 また,メタ学習におけるタスク選択実験を行い,提案モデルから推定したタスク関連性がメタ学習アルゴリズムの促進に役立つことを示す。

We propose probabilistic task modelling -- a generative probabilistic model for collections of tasks used in meta-learning. The proposed model combines variational auto-encoding and latent Dirichlet allocation to model each task as a mixture of Gaussian distribution in an embedding space. Such modelling provides an explicit representation of a task through its task-theme mixture. We present an efficient approximation inference technique based on variational inference method for empirical Bayes parameter estimation. We perform empirical evaluations to validate the task uncertainty and task distance produced by the proposed method through correlation diagrams of the prediction accuracy on testing tasks. We also carry out experiments of task selection in meta-learning to demonstrate how the task relatedness inferred from the proposed model help to facilitate meta-learning algorithms.
公開日: Wed, 9 Jun 2021 04:34:12 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] G L . 9 ] G L。 0.81
s c [ 1 v 2 0 8 4 0 sc [ 1 v 2 0 8 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Probabilistic task modelling for meta-learning メタラーニングのための確率的タスクモデリング 0.53
Cuong C. Nguyen1, Thanh-Toan Do2, and Gustavo Carneiro1 Cuong C. Nguyen1, Thanh-Toan Do2, Gustavo Carneiro1 0.78
1Australian Institute for Machine Learning, University of Adelaide, Australia オーストラリア、アデレード大学1australian institute for machine learning 0.71
2Department of Data Science and AI, Monash University, Australia オーストラリア・モナシュ大学 データサイエンス・AI2部 0.62
Abstract We propose probabilistic task modelling – a generative probabilistic model for collections of tasks used in meta-learning. 概要 本稿ではメタラーニングに使用されるタスクの集合に対する生成的確率モデルである確率的タスクモデリングを提案する。 0.52
The proposed model combines variational auto-encoding and latent Dirichlet allocation to model each task as a mixture of Gaussian distribution in an embedding space. 提案モデルは変分オートエンコーディングと潜在ディリクレ割当を組み合わせ、各タスクを埋め込み空間内のガウス分布の混合としてモデル化する。 0.82
Such modelling provides an explicit representation of a task through its task-theme mixture. このようなモデリングはタスク-テーマの混合を通じてタスクの明示的な表現を提供する。 0.59
We present an efficient approximation inference technique based on variational inference method for empirical Bayes parameter estimation. 経験的ベイズ推定のための変分推定法に基づく効率的な近似推定手法を提案する。 0.75
We perform empirical evaluations to validate the task uncertainty and task distance produced by the proposed method through correlation diagrams of the prediction accuracy on testing tasks. 提案手法により得られたタスクの不確かさとタスク距離を,テストタスクにおける予測精度の相関図を用いて検証する。 0.76
We also carry out experiments of task selection in meta-learning to demonstrate how the task relatedness inferred from the proposed model help to facilitate meta-learning algorithms. また,メタ学習におけるタスク選択実験を行い,提案モデルから推定したタスク関連性がメタ学習アルゴリズムの促進に役立つことを示す。 0.79
1 Introduction The latest developments in machine learning have enabled the field to solve increasingly complex classification problems. はじめに 機械学習の最近の進歩は、ますます複雑な分類問題の解決を可能にした。 0.62
Such complexity require high capacity models, which in turn need a massive amount of annotated data for training, resulting in an arduous, costly and even infeasible annotation process. このような複雑さには、高容量モデルが必要であり、トレーニングのために大量の注釈付きデータが必要となり、結果として、熱烈でコストのかかる、さらには実現不可能なアノテーションプロセスが発生する。
訳抜け防止モード: このような複雑さは高いキャパシティモデルを必要とし、訓練には大量の注釈付きデータを必要とする。 その結果、厳しい、コストがかかる、さらには実現不可能なアノテーションプロセスが生まれます。
0.60
This has, therefore, motivated the research of novel learning approaches, generally known as transfer learning, that exploit past experience (in the form of models learned from other training tasks) to quickly learn a new task using relatively small training sets. そのため、これは、(他のトレーニングタスクから学んだモデルという形で)過去の経験を活用して、比較的小さなトレーニングセットを使って、新しいタスクを素早く学習する新しい学習手法の研究を動機付けている。 0.74
Transfer-learning, and in particular, meta-learning, assumes the existent of a task environment where training and testing tasks are i.i.d. トランスファーラーニング、特にメタラーニングは、トレーニングとテストタスクがi.i.dであるタスク環境の存在を前提としている。 0.57
sampled from the same latent distribution. 同じ潜伏分布から採取しました 0.62
By modelling such environment through meta-parameters that are shared across all tasks, meta-learning can solve an unseen task more accurately and efficiently by learning how to solve many tasks generated from the same distribution, even if each task contains a limited number of training examples. すべてのタスクで共有されるメタパラメータを通じてそのような環境をモデル化することで、たとえ各タスクが限られたトレーニング例を含んでいても、同じディストリビューションから生成される多くのタスクをどのように解決するかを学習することで、メタラーニングはより正確かつ効率的に未認識のタスクを解決できる。 0.59
Meta-learning has, therefore, progressed steadily with many remarkable state-of-the-art results in several few-shot learning benchmarks (Vinyals et al , 2016; Snell et al , 2017; Finn et al , 2017; Yoon et al , 2018; Rusu et al , 2019; Allen et al , 2019). メタラーニングは、いくつかのショットラーニングベンチマーク(Vinyals et al , 2016; Snell et al , 2017; Finn et al , 2017; Yoon et al , 2018; Rusu et al , 2019; Allen et al , 2019)において、目覚ましい最先端の成果によって着実に進歩している。 0.81
However, current development of meta-learning focuses on solving tasks without providing understanding on how tasks are generated or correlated, potentially leading to sub-optimal solutions. しかし、現在のメタラーニングの開発は、タスクがどのように生成され、相関するのかを理解せずに、タスクの解決に焦点を当てている。
訳抜け防止モード: しかし、メタ-ラーニングの現在の発展はタスクの解決に焦点をあてている。 タスクの生成や相関に関する理解を提供する。
0.58
In fact, there is a large variation of prediction performance made by various meta-learning algorithms reported in (Dhillon et al , 2020, Figure 1) or shown in Figure 1, suggesting that not all testing tasks are equally related to training tasks. 実際、さまざまなメタ学習アルゴリズムが報告した(dhillon et al , 2020, figure 1)、あるいは図1に示すように、予測性能には大きなバリエーションがあり、すべてのテストタスクがトレーニングタスクに等しく関係しているわけではない。 0.64
This motivates our work to model and represent tasks in a latent “task-theme” space. これは、タスクを”タスクテーマ”の潜在領域でモデル化し、表現する作業のモチベーションになります。 0.60
The new task representation allows further downstream works, such as task similarity or active task selection, to be developed to gain insights into, or even improve, the prediction performance of different meta-learning algorithms. 新しいタスク表現により、タスクの類似性やアクティブなタスク選択といった下流の作業が開発され、様々なメタラーニングアルゴリズムの予測性能に関する洞察を得るか、あるいは改善することさえできる。 0.78
In this paper, we propose probabilistic task modelling (PTM) – a graphical model that combines variational auto-encoding (VAE) (Kingma and Welling, 2014) and Gaussian latent Dirichlet allocation (LDA) (Das et al , 2015) – to model tasks used in meta-learning. 本稿では,変分自動エンコーディング (vae) (kingma and welling, 2014) とガウス的潜在ディリクレ割当 (lda) (das et al , 2015) を組み合わせたグラフィカルモデルである確率的タスクモデリング (ptm) を提案する。
訳抜け防止モード: 本稿では,変分オートコーディング(VAE)を併用したグラフィカルモデルである確率的タスクモデリング(PTM)を提案する。 2014年)とガウス・ラテン・ディリクレ・アロケーション(LDA) (Das et al, 2015) - ^ メタ - 学習で使われるタスクをモデル化する。
0.80
Note that PTM itself is not a meta-learning method. PTM自体がメタ学習法ではないことに注意。 0.74
With this modelling approach, the dataset associated with each task can be modelled as a mixture of finite Gaussian distributions, allowing to represent tasks in a latent “task-theme” simplex via its mixture coefficient vector. このモデリングアプローチにより、各タスクに関連するデータセットは、有限ガウス分布の混合としてモデル化することができ、その混合係数ベクトルを介して、潜伏した「タスク・テーマ」単純表現のタスクを表現できる。 0.72
Such representation provides a convenient そのような表現は便利である 0.59
英語(論文から抽出)日本語訳スコア
y c n e u q e r f d e s i l a m r o N y c n e u q e r f d s i l a m r o N 0.80
4 3 2 1 0 0.1 4 3 2 1 0 0.1 0.81
0.3 0.5 Accuracy 0.7 0.3 0.5精度 0.7 0.61
Figure 1: The results locally produced for MAML on 15,504 available 5-way 1-shot mini-ImageNet testing tasks vary from 20 to 70 percent accuracy, suggesting that not all testing tasks are equally related to training tasks. 図1: 15,504 で MAML 用にローカルに生成された結果,5-way 1-shot mini-ImageNet テストタスクは,20 ~ 70 パーセントの精度で変化している。 0.74
way to quantitatively measure “task uncertainty” or task relatedness, which can be utilised in active task selection for meta-learning. タスク関連性を定量的に測定する方法。これはメタ学習のためにアクティブなタスク選択に利用することができる。 0.69
2 Related Work The proposed approach is closely related to Task2Vec (Achille et al , 2019) when modelling tasks for meta-learning. 2 関連作業 提案手法は、メタ学習のタスクをモデル化する場合、Task2Vec(Achille et al , 2019)と密接に関連している。 0.69
In Task2Vec, a task is represented by an embedding computed from the Fisher information matrix associated with the task-specific classifier. Task2Vecでは、タスク固有の分類器に関連するフィッシャー情報行列から計算された埋め込みによってタスクが表現される。 0.65
In PTM, a task is represented by the variational distribution of task-theme mixture, which is a part of the graphical model describing the task generation process. PTMでは、タスク生成プロセスを記述するグラフィカルモデルの一部であるタスク-テーマ混合の変分分布によってタスクが表現される。 0.81
The two methods, therefore, differ at the modelling mechanism: Task2Vec follows a deterministic approach, while PTM is a probabilistic method. Task2Vecは決定論的アプローチに従うが、PTMは確率論的手法である。
訳抜け防止モード: したがって2つの方法は モデリングのメカニズムによって異なります : task2vec は決定論的アプローチに従い、ptm は確率的手法である。
0.69
Such difference provides an advantage of PTM over Task2Vec, which includes modelling uncertainty into the task representation. このような違いは、タスク表現に不確実性をモデル化することを含むTask2Vecに対するPTMの利点を提供する。 0.58
In addition, PTM is more efficient than Task2Vec at inference when predicting task representation, since PTM only needs a single forward pass, while Task2Vec requires to re-train or fine-tune the taskspecific classifier and calculate the Fisher information matrix for the task that needs to be presented. さらに、PTMはタスク表現の予測時にTask2Vecよりも効率が良く、PTMは1つのフォワードパスしか必要とせず、Task2Vecはタスク固有の分類器を再訓練または微調整し、提示すべきタスクのフィッシャー情報行列を計算する必要がある。 0.69
Our work is related to task similarity estimation, which has been intensively studied in the field of multi-task learning. 本研究は,マルチタスク学習の分野で集中的に研究されているタスク類似度推定に関連している。 0.74
Some remarkable examples in this area include task-clustering using k-nearest neighbours (Thrun and O’Sullivan, 1996), or modelling common prior between tasks as a mixture of distributions (Bakker and Heskes, 2003; Xue et al , 2007). この領域の注目すべき例としては、k-アネレスト近傍を用いたタスククラスタリング(Thrun and O’Sullivan, 1996)や、分散の混合としてタスク間の共通な事前モデリング(Bakker and Heskes, 2003; Xue et al , 2007)がある。 0.74
Another approach is to formulate multitask learning as a convex optimisation problem either to cluster tasks and utilise the clustering results to fast track the learning (Jacob et al , 2009), or to learn task relationship through task covariance matrices (Zhang and Yeung, 2012). もう一つのアプローチは、タスクをクラスタリングし、クラスタリング結果を利用して学習を高速に追跡する(Jacob et al , 2009)か、タスク共分散行列を通してタスクの関係を学習する(Zhang and Yeung, 2012)。 0.73
Other approaches provided theoretical guarantees when learning the similarity or relationship between tasks (Shui et al , 2019). 他のアプローチは、タスク間の類似性や関係を学習する際の理論的保証を提供した(Shui et al , 2019)。 0.67
Recently, the taskonomy project (Zamir et al , 2018) was conducted to carry out extensive experiments on 26 computer-vision tasks to empirically analyse the correlation between those tasks. 近年,26個のコンピュータビジョンタスクを広範囲に実験し,それらの相関関係を実証的に解析するために,タスクノミープロジェクト(zamir et al, 2018)が実施された。 0.74
Other works (Tran et al , 2019; Nguyen et al., 2020b) take a slightly different approach by investigating the correlation of the label distributions between the tasks of interest to measure task similarity. その他の研究(Tran et al , 2019; Nguyen et al., 2020b)は、タスク類似性を測定するために興味のあるタスク間のラベル分布の相関を調査することによって、若干異なるアプローチをとる。 0.74
One commonality among all studies above is their reliance on task-specific classifiers which are used to quantify task relatedness. 上記のすべての研究の共通点は、タスク関連性の定量化に使用されるタスク固有の分類器に依存することである。 0.58
In contrast, our proposed method explicitly models tasks without the help of any task-specific classifier, making it more efficient in training and prediction. 対照的に,提案手法はタスク固有の分類器を使わずにタスクを明示的にモデル化し,学習や予測の効率化を図る。 0.75
Our work is also connected to finite mixture models (Pritchard et al , 2000), such as the latent Dirichlet allocation (Blei et al , 2003), which analyses and summarises text data in topic modelling, or categorises natural scenes in computer vision (Li and Perona, 2005). 本研究はまた,トピックモデリングにおけるテキストデータの解析と要約を行う潜在ディリクレ割当(blei et al, 2003)や,コンピュータビジョンにおける自然なシーンの分類(li and perona, 2005)など,有限混合モデル(pritchard et al , 2000)にも関係している。 0.85
LDA assumes that each document within a given corpus can be represented as a mixture of finite categorical distributions, where each categorical distribution is a latent topic shared across all documents. LDAは、与えられたコーパス内の各文書は有限なカテゴリ分布の混合として表現できると仮定し、各カテゴリ分布はすべての文書間で共有される潜在トピックである。 0.78
Training an LDA model or its variants on a large text corpus is challenging, so several approximate inference techniques have been proposed, ranging from mean-field variational inference (VI) (Blei et al , 2003), collapsed Gibbs’ sampling (Griffiths and Steyvers, 2004) and collapsed VI (Teh et al , 2007). LDAモデルまたはその変種を大きなテキストコーパスで訓練することは困難であり、平均場変動推定(VI) (Blei et al , 2003)、Gibsのサンプリング(Griffiths and Steyvers, 2004)、VI(Teh et al , 2007)など、いくつかの近似推論手法が提案されている。 0.77
Furthermore, 2 さらに 2 0.66
英語(論文から抽出)日本語訳スコア
0 1 0.2 Task i 0 1 0.2 タスクI 0.73
0.4 Animal 0.6 0.4 動物 0.6 0.65
0.8 1 0.8 F 0.8 1 0.8 F 0.72
u r n 0.6 うーん r n 0.6 0.71
i t u r 私は t うーん r 0.69
e 0.4 0.2 0 E 0.4 0.2 0 0.69
0 0.2 0.4 0.6 Human 0 0.2 0.4 0.6人 0.66
0.8 1 0 1 2 0.8 1 0 1 2 0.80
3 Figure 2: An example of a task-theme simplex where each task is represented by a 3-dimensional mixture vector. 3 図2: 各タスクが3次元の混合ベクトルで表現されるタスクテーマの単純な例。 0.83
several online inference methods have been developed to increase the training efficiency for large corpora (Canini et al , 2009; Hoffman et al , 2010; Foulds et al , 2013). 大規模なコーパスのトレーニング効率を高めるために、いくつかのオンライン推論手法が開発されている(Canini et al , 2009; Hoffman et al , 2010; Foulds et al , 2013)。 0.77
Our work is slightly different from the modelling of the conventional LDA, where we do not use the data directly, but embed it into a latent space. 我々の研究は従来のLDAのモデリングとは少し異なり、データを直接使用するのではなく、潜伏した空間に組み込んでいます。 0.76
In short, our approach is a combination of VAE (Kingma and Welling, 2014) and LDA to model the dataset associated with a task. 要するに、我々のアプローチは、タスクに関連するデータセットをモデル化するためのVAE(Kingma and Welling, 2014)とLDAの組み合わせです。 0.79
Our approach considers “word” as continuous data, instead of the discrete data represented by a bag-of-word vector generally used by LDA-based topic modelling methods. 提案手法では,ldaに基づくトピックモデリング手法で一般的に用いられる単語ベクトルで表現される離散データではなく,連続データとして「単語」を考える。 0.70
The resultant model in the embedding latent space is, therefore, similar to the Gaussian LDA (Das et al , 2015) for word embedding in topic modelling. したがって、埋め込み潜在空間における結果モデルは、トピックモデリングにおける単語埋め込みのためのガウス lda (das et al , 2015) に似ている。 0.74
3 Probabilistic task modelling 3 確率的タスクモデリング 0.78
To relate task modelling to topic modelling, we consider a task as a document, and a data point as a word. 課題モデリングとトピックモデリングを関連付けるために,タスクを文書として,データポイントを単語として考える。 0.82
Given these analogies, we can use LDA (Blei et al , 2003) – a popular topic model – to model tasks for meta-learning. これらの類似性を考えると、メタ学習のタスクをモデル化するために、LDA(Blei et al , 2003)が人気のあるトピックモデルである。 0.63
However, simply applying LDA for task modelling would not scale well with high-dimensional data and large datasets. しかし、単にタスクモデリングにLDAを適用するだけでは、高次元データや大規模なデータセットではスケールしない。 0.63
We, therefore, propose to employ the VAE (Kingma and Welling, 2014) to reduce the dimension of the data, and use the inferred embeddings of data as words to model tasks. そこで我々は,vae (kingma and welling, 2014) を用いてデータの次元を削減し,推定されたデータの埋め込みを単語としてタスクをモデル化することを提案する。 0.83
Due to the nature of VAE, the latent variables are often continuous, not discrete as the bag-of-words used in the conventional LDA. VAEの性質のため、潜伏変数はしばしば連続的であり、従来のLDAで使われる単語の袋のように離散的ではない。 0.68
We, therefore, replace the categorical word-topic distributions in LDA by Gaussian task-theme1 distributions. したがって、LDAのカテゴリー的単語-話題分布をガウスタスク-テーマ1分布に置き換える。 0.69
Given these assumptions, each task can be modelled as a mixture of K Gaussian task-themes, allowing to represent tasks by their inferred task-theme mixture vectors in the latent task-theme simplex as illustrated in Figure 2. これらの仮定を前提として、各タスクはKガウスのタスクテーマの混合としてモデル化することができ、図2に示すように、潜在タスクテーマの単純なベクトルの推論タスクテーマの混合ベクトルによってタスクを表現することができる。 0.62
Hence, it is beneficial to utilise this representation for further downstream tasks, such as measuring task similarity. したがって、この表現をタスク類似度の測定などの下流タスクに活用することは有益である。 0.71
The graphical model of the proposed PTM is shown in Figure 3, where there are T tasks, and each task consists of N data points, denoted as x. 提案したPTMのグラフィカルモデルは図3に示され、Tタスクがあり、各タスクはxと表記されるNデータポイントで構成される。 0.79
To simplify the formulation and analysis, N is assumed to be fixed across all tasks, but the extension of varying N is trivial and can be implemented straightforwardly. 定式化と解析を単純化するために、N はすべてのタスクで固定されていると仮定されるが、異なる N の拡張は自明であり、簡単に実装できる。 0.67
Under these assumptions, a task can be generated as follows: これらの仮定では、次のようにタスクを生成することができる。 0.60
• Initialise the Dirichlet prior for task-theme mixture: {αk}K •タスク-テーマ混合物のディリクレを初期化する: {αk}k 0.71
k=1, where α ∈ R+ k=1, α ∈ R+ 0.88
• Initialise means and covariance matrices of K Gaussian task-themes {µk, Σk}K • K Gaussian Task-themes {μk, Σk}K の初期化平均と共分散行列 0.79
k=1, where µk ∈ RD, Σk ∈ RD×D is positive definite matrix, and D is the dimension of the data embedding k=1, where μk ∈ RD, Σk ∈ RD×D is positive definite matrix, and D is the dimension of the data embeddedding 0.98
• For task Ti in the collection of T tasks: • T タスクのコレクションにおけるタスク Ti の場合: 0.93
1“Task-theme” is inspired by Li and Perona (2005) 1 “Task-theme”はLiとPeronaにインスパイアされた(2005年) 0.72
3 3 0.85
英語(論文から抽出)日本語訳スコア
α π i = 1 : T α π i = 1 : T 0.85
K : 1 = k µ K : 1 = k µ 0.85
Σ z n = 1 : N Σ z n = 1 : N 0.85
u φ x θ Figure 3: The graphical model used in task modelling. うーん φ x θ 図3:タスクモデリングで使用されるグラフィカルモデル。 0.77
The solid arrows denote data generation, while the dashed arrows stand for inference. ソリッド矢印はデータ生成を意味し、ダッシュされた矢印は推論を表す。 0.61
The boxes are “plates” representing replicates. ボックスは複製を表す“プレート”です。 0.65
The shading nodes denote observable variables, while the white nodes denote latent variables. シェーディングノードは可観測変数、ホワイトノードは潜在変数を表す。 0.68
– Choose a task-theme mixture vector: πi ∼ Dirichlet (π; α) – For data point n-th of task Ti: – タスク-テーマ混合ベクトル πi > Dirichlet (π; α) – タスク Ti のデータポイント n-th に対して。 0.83
* Choose an task-theme assignment one-hot vector: zin ∼ Categorical (z; πi) * Choose an embedding of the data point: uin ∼ N (u; µk, Σk), where: zink = 1 * Generate the data point from a decoder h parameterised by θ: xin = h(uin; θ). ※ タスク-テーマの 1-ホットベクトルを選ぶ: zin > Categorical (z; πi) * データポイントの埋め込みを選択する: uin > N (u; μk, Σk) ここで zink = 1 * θ でパラメータ化されたデコーダ h からデータポイントを生成する: xin = h(uin; θ)。 0.89
To model tasks according to the task generation described above, we need to infer the task-agnostic (or meta) parameters of interest, namely µ, Σ, α and θ. 上記のタスク生成に従ってタスクをモデル化するには、タスクに依存しない(あるいはメタ)パラメータ、すなわち μ, Σ, α, θ を推論する必要がある。 0.72
However, due to the complexity of the graphical model shown in Figure 3, the exact inference for the posterior p(µ, Σ, α, θ|x) is intractable, and therefore, the estimation must rely on approximate inference. しかし図3に示すグラフィカルモデルの複雑さのため、後部 p(μ, Σ, α, θ|x) の正確な推論は難解であり、したがって推定は近似推論に依存する必要がある。 0.73
For simplicity, maximum likelihood estimation (MLE) is used as the objective function: 単純性には、目的関数として最大推定(MLE)を用いる。 0.77
max µ,Σ,α,θ マックス µ,Σ,α,θ 0.72
ln p(x|µ, Σ, α, θ). ln p(x|μ, Σ, α, θ)。 0.89
(1) Although MLE simplifies the learning for the meta-parameters of interest, the log-likelihood in (1) is still difficult to evaluate for the optimisation. (1) MLE はメタパラメータの学習を単純化するが,(1) の対数類似度は最適化のための評価が難しい。 0.77
One workaround solution is to find its lower-bound, and maximise the lower-bound instead of maximising the log-likelihood itself. 回避策の1つは、ローバウンドを見つけ、ローバウンドを最大化することである。 0.45
This approach is analogous to the variational inference, which has been widely used to infer the latent parameters of VAE and LDA models. このアプローチは、VAEモデルとLDAモデルの潜在パラメータを推論するために広く使われている変分推論に類似している。 0.78
Since the proposed PTM is a combination of VAE and LDA, the derivation for the lower-bound of the likelihood in (1) can be divided into 2 steps, where the first step is analogous to the lower bound of a VAE, and the second step is similar to the plain LDA model. 提案手法は, VAE と LDA の組合せであるため,(1) の確率の低い値の導出は2段階に分けられ,第1段階は VAE の下位値に類似し,第2段階は通常の LDA モデルに類似している。
訳抜け防止モード: 提案した PTM は VAE と LDA の組合せである。 1)における可能性の低い境界の導出は、2つのステップに分けられる。 最初のステップがVAEの下位境界に類似している場合 2番目のステップは、普通のLDAモデルに似ています。
0.79
In the first step, the latent variable u is introduced, so that the log-likelihood ln p(x|µ, Σ, α, θ) can be bounded below by Jensen’s inequality: 最初のステップでは、潜在変数 u が導入されたので、log-likelihood ln p(x|μ, σ, α, θ) はjensenの不等式によって下に有界となる。 0.74
where the lower-bound is defined as: 下限を次のように定義します 0.64
with q(u) being the variational distribution for the latent variable u. q(u) は潜在変数 u の変分分布である。 0.61
LVAE = E q(u) [ln p (x|u, θ) + ln p (u|µ, Σ, α) − ln q(u)] , LVAE = E q(u) [ln p (x|u, θ) + ln p (u|μ, σ, α) − ln q(u)] , , 0.90
ln p(x|µ, Σ, α, θ) ≥ LVAE, ln p(x|μ, Σ, α, θ) ≥ LVAE, 0.96
(2) (3) Following the conventional VI for VAE (Kingma and Welling, 2014), the variational distribution for the data embedding u is assumed to be a Gaussian distribution with diagonal covariance matrix: (2) (3) VAE の従来の VI (Kingma and Welling, 2014) に続いて、u を埋め込んだデータの変分分布は対角共分散行列を持つガウス分布であると仮定される。 0.85
where I represents an identity matrix. ここではアイデンティティマトリックスを表します。 0.51
q(u) = N(cid:16)u; m, (s)2 I(cid:17) , q(u) = N(cid:16)u; m, (s)2 I(cid:17) , 1.00
(4) In addition, the parameters m and s, which represent the distribution encoding the data x, are modelled by a neural network (also known as an encoder) f parameterised by φ: (4) さらに、データxを符号化する分布を表すパラメータm,sは、φによってパラメータ化されたニューラルネットワーク(エンコーダとも呼ばれる)fによってモデル化される。 0.85
[m s] ⊤ = f (x; φ). [m s] ⊤ f (x; φ) である。 0.85
(5) 4 (5) 4 0.85
英語(論文から抽出)日本語訳スコア
Hence, instead of maximising the marginal log-likelihood in (1), the lower-bound in (3) is maximised, resulted in the alternative objective: したがって,(1) における辺辺対数様度を最大化する代わりに,(3) における下界を最大化して,次の選択肢を導いた。 0.55
max µ,Σ,α,θ マックス µ,Σ,α,θ 0.72
max φ LVAE. マックス φ LVAE 0.68
(6) One difficulty in maximising the lower-bound in (6) is the evaluation for the embedding prior ln p (u|µ, Σ, α) in Eq (3). (6) 6) における下界の最大化の難しさの1つは、Eq (3) への前 ln p (u|μ, Σ, α) の埋め込みの評価である。 0.81
In vanilla VAE, the embedding prior is often modelled as some standard distributions, such as Gaussian or Beta, resulting in a tractable solution. バニラVAEでは、埋め込み前はガウスやベータのような標準的な分布としてモデル化されることが多い。 0.59
In this paper, the prior is modelled as a Gaussian mixture model, making the solution intractable. 本稿では, 前者をガウス混合モデルとしてモデル化し, 解を難解にする。 0.73
However, since this prior is the marginal log-likelihood in the conventional LDA model, we can apply techniques developed for LDA methods to approximate this term. しかし,本手法は従来のLDAモデルでは辺辺対数に類似しているため,LDA法で開発された手法を用いて近似することができる。 0.73
Here, we employ the VI approach in which the term is bounded below by Jensen’s inequality: ここでは、Jensenの不等式によって下記の項が境界づけられるVIのアプローチを用いる。 0.63
where: ln p (u|µ, Σ, α) ≥ LLDA(u, q(z, π)), どこに? ln p (u|μ, Σ, α) ≥ LLDA(u, q(z, π)) 0.71
LLDA (u, q(z, π)) = E LLDA (u, q(z, π)) = E 0.85
q(z,π) [ln p(u|z, µ, Σ) q(z,π)[ln p(u|z, μ, Σ) 0.95
+ ln p(z|π) + ln p(π|α) − ln q(z) − ln q(π)] , + ln p(z|π) + ln p(π|α) − ln q(z) − ln q(π)] , 0.98
(7) (8) with q(z, π) being the variational distribution for z and π. (7) (8) q(z, π) は z と π の変分分布である。 0.82
This corresponds to the second step in the derivation. これは導出の第2段階に相当する。 0.73
Similar to LDA (Blei et al , 2003), the variational distribution q(z, π) is assumed to be fully factorised and followed the conjugate priors: lda (blei et al , 2003) と同様、変分分布 q(z, π) は全因子化され、共役前駆体に従うと仮定される。
訳抜け防止モード: LDA (Blei et al, 2003 ) と同様、変分分布 q(z, π ) が仮定される。 to be complete factorized and follow the conjugate priors:
0.81
where: q(z, π) = どこに? q(z, π) = 0.69
T Yi=1 q(πi; γi) T Yi=1 q(πi; γi) 0.78
N Yn=1 q(zin; rin), N Yn=1 q(zin; rin) 0.71
q(πi; γi) = Dirichlet (πi; γi) q(πi; γi) = dirichlet(πi; γi) 0.87
q(zin; rin) = Categorical (zin; rin) , q(zin; rin) = カテゴリー (zin; rin) , 0.78
(9) (10) (11) (9) (10) (11) 0.85
with r and γ being the parameters of the variational distribution q(z, π). r と γ は変分分布 q(z, π) のパラメータである。 0.68
In practice, q(z, π) is obtained as the maximiser of the lower-bound LLDA (u, q(z, π)) on the embedding data u. 実際には、埋め込みデータ u 上の下界 LLDA (u, q(z, π)) の最大値として q(z, π) が得られる。 0.72
It is, however, inapplicable in this case, since the data embedding u is used twice: one to optimise q(z, π), and the other is to optimise the objective in (6), which may result in overfitting. しかし、この場合、データ埋め込み u は q(z, π) を最適化するために2回使用され、もう1つは (6) の目的を最適化することであり、これはオーバーフィッティングをもたらす可能性がある。 0.76
To avoid this issue, we employ the empirical Bayes approach relying on the train-test split method, where one half of data in a task, denoted as u(t), is used to obtain q(z, π), while the other half, denoted as u(v), is used for the optimisation in (6). この問題を回避するために,タスク内のデータの半分を u(t) と表記し,残りの半分を u(v) と表記して (6) の最適化に使用する,列車テスト分割法(train-test split method) に基づいた経験的ベイズ手法を採用する。 0.68
This approach is analogous to the empirical Bayes meta-learning (Finn et al , 2017; Nguyen et al , 2020a), where one part of data is used for taskadaptation (often known as “inner-loop”), while the other part is used to learn the meta-parameter (often known as “outer-loop”). このアプローチは、実証的なベイズメタラーニング(Finn et al , 2017; Nguyen et al , 2020a)に類似しており、データの一部がタスク適応("inner-loop"と呼ばれる)に使用され、残りの部分はメタパラメータ("outer-loop"と呼ばれる)を学ぶために使用される。 0.77
Given this modelling approach, the objective function can be formally written as a bi-level optimisation: このモデリングアプローチを考えると、目的関数は二値最適化として形式的に書ける。 0.72
max µ,Σ,α,θ,φ マックス µ,Σ,α,θ,φ 0.73
subject to: L(cid:16)u(v), q∗ (z, π)(cid:17) 対象: L(cid:16)u(v),q∗(z,π)(cid:17) 0.70
where q∗ (z, π) = arg max q(z,π) どこに q∗ (z, π) = arg max q(z, π) 0.77
L(cid:16)u(v), q∗ (z, π)(cid:17) = E L(cid:16)u(v), q∗ (z, π)(cid:17) = E 0.99
E q(u(t);φ)hLLDA(cid:16)u(t), q(z, π)(cid:17)i , q(u(v);φ)hLLDA(cid:16)u(v), q∗(z, π)(cid:17) E q(u(t);φ)hLLDA(cid:16)u(t), q(z, π)(cid:17)i , q(u(v);φ)hLLDA(cid:16)u(v), q∗(z, π)(cid:17) 0.88
+ ln p(cid:16)x(v)|u(v), θ(cid:17) − ln q(cid:16)u(v); φ(cid:17)i . + ln p(cid:16)x(v)|u(v), θ(cid:17) − ln q(cid:16)u(v); φ(cid:17)i。 0.96
(12) (13) Due to the assumptions made in Eqs. (12) (13) Eqsにおける仮定のためである。 0.81
(4), (10) and (11), prior conjugate can be applied to simplify the evaluation for all the terms in (8) w.r.t. (4), (10), (11), 先行共役は (8) w.r.t の全ての項に対する評価を単純化するために適用することができる。 0.80
the variational distribution q(.). Details of the evaluation can be referred to Appendix A. 変分分布 q(.) 評価の詳細はAppendix Aを参照してください。 0.61
In addition, the optimisation for the meta-parameters in (12) is based さらに、 (12) におけるメタパラメータの最適化がベースである。 0.76
5 5 0.85
英語(論文から抽出)日本語訳スコア
on gradient ascent, and carried out in two steps, resulting in a process analogous to the expectationmaximisat ion (EM) algorithm. 勾配上昇において、2つのステップで実行され、その結果、期待最大化(EM)アルゴリズムに類似したプロセスとなる。 0.67
In the E-step (corresponding to the optimisation for the lower-level in (12)), the task-specific variational-paramete rs r and γ are iteratively updated, while holding the metaparameters µ, Σ, α, θ and φ fixed. eステップ(12)において、タスク固有の変分パラメータr,γは、メタパラメータμ, σ, α, θ, φを固定しながら反復更新される。
訳抜け防止モード: E ステップでは (12 ) の下位レベルに対する最適化に対応する) パラメータ r と γ は繰り返し更新されます。 準パラメータ μ, Σ, α, θ, φ を固定した状態で保持する。
0.81
In the M-step (corresponding to the optimisation for the upperlevel), the meta-parameters are updated using the values of the task-specific variational-paramete rs obtained in the E-step. Mステップ(上段の最適化に対応する)では、Eステップで得られたタスク固有の変動パラメータの値を用いてメタパラメータを更新する。 0.75
Note that the inference for the task-theme parameters µ and Σ are similar to the estimation of Gaussian mixture model (Bishop, 2006, Chapter 9). タスク-テーマパラメータ μ と σ の推論はガウス混合モデルの推定と似ている(bishop, 2006 chapter 9)。 0.66
Please refer to Appendix B for more details on the optimisation. 最適化の詳細は、appendix bを参照してください。 0.76
Conventionally, the iterative updates in the E-step and M-step require a full pass through the entire collection of tasks. 従来、eステップとmステップの反復的な更新はタスクのコレクション全体をフルパスする必要がある。 0.66
This is, however, very slow and even infeasible since T is often in the magnitude of millions. しかし、これは非常に遅く、T が数百万の質量にあるため、実現不可能である。 0.65
We, therefore, propose an online VI inspired by the online learning for LDA (Hoffman et al , 2010) to infer the meta-parameters. そこで我々は,メタパラメータを推定するために,LDA(Hoffman et al , 2010)のオンライン学習にインスパイアされたオンラインVIを提案する。 0.70
For each task Ti, we perform the EM to obtain the “taskspecific” parameters (denoted by a tilde on top of variables) that are locally optimal for that task. 各タスクTiに対して、そのタスクに対して局所的に最適である「タスク固有の」パラメータ(変数上のタイルで示される)を得るためにEMを実行する。 0.68
The “meta” parameters of interest are then updated as a weighted average between their previous values and the “task-specific” values: 関心の”meta”パラメータは、以前の値と“task-specific”値の間の重み付き平均として更新される。 0.81
µ ← (1 − ρi)µ + ρi ˜µ Σ ← (1 − ρi)Σ + ρi ˜Σ α ← α − ρi ˜αi μ > (1 − ρi)μ + ρi >μ Σ > (1 − ρi)Σ + ρi >Σ α > α − ρi >αi 0.74
, |{z}H−1g (14) , |z}h−1g (14) 0.85
where ρi = (τ0 + i)−τ1 with τ0 ≥ 0 and τ1 ∈ (0.5, 1] (Hoffman et al , 2010), g is the gradient of LLDA w.r.t. ρi = (τ0 + i)−τ1 with τ0 ≥ 0 and τ1 ∈ (0.5, 1] (Hoffman et al , 2010) とすると、g は LLDA w.r.t の勾配である。 0.80
α, and H is the Hessian matrix. α と H はヘッセン行列である。 0.66
The learning for the encoder φ and the decoder θ follows the conventional learning by stochastic gradient ascent. エンコーダ φ とデコーダ θ の学習は、確率勾配上昇による従来の学習に従う。 0.71
The complete learning algorithm for the proposed probabilistic task modelling is shown in Algorithm 1. 提案する確率的タスクモデリングのための完全学習アルゴリズムをアルゴリズム1で示す。 0.84
Also, instead of updating the meta-parameters as in (14) when observing a single task, we use multiple or a mini-batch of tasks to reduce the effect of measurement noise. また、1つのタスクを観察するときに(14)のようにメタパラメータを更新する代わりに、複数のタスクまたはミニバッチを使用して測定ノイズの影響を低減する。 0.77
The mini-batch version requires a slight modification in the formulation presented above, where we calculate the average of all “task-specific” parameters for tasks in the same mini-batch, and use that as the “task-specific” value to update the corresponding “meta” parameters. mini-batchバージョンでは、上記の定式化を少し変更する必要があります。ここでは、同じmini-batch内のタスクの"task-specific"パラメータの平均を計算し、それに対応する"meta"パラメータを更新するために"task-specific"値として使用します。
訳抜け防止モード: mini - バッチバージョンでは、上述の定式化を少し変更する必要がある。 ここでは、同じミニタスクの"タスク - 特定の"パラメータの平均を計算する。 タスク - specific ” の値として使用します パラメータを更新する。
0.72
Although the “reconstruction” term ln p(x(v)|u(v), θ) in (12) is used to model the likelihood of unlabelled data, it can straightforwardly be extended to a labelled data pair {x(v), y(v)} by introducing the parameter w of a classifier. 再構成」項 ln p(x(v)|u(v, θ) in (12) はラベルなしデータの可能性をモデル化するために用いられるが、分類器のパラメータ w を導入することで簡単にラベル付きデータペア {x(v), y(v)} に拡張することができる。 0.81
In that case, the “reconstruction” term can be expressed as: この場合、"reconstruction"という用語は次のように表現できる。 0.76
ln p(x(v), y(v)|u(v), θ, w) = ln p(y(v)|u(v), w) ln p(x(v), y(v)|u(v), θ, w) = ln p(y(v)|u(v), w) 0.83
+ ln p(x(v)|u(v), θ) + ln p(x(v)|u(v), θ) 0.85
. (15) negative classification loss . (15) 負の分類損失 0.85
negative reconstruction loss {z 負の再構成損失 {z 0.76
} | {z } | } | {z } | 0.85
In general, w can be either a task-specific parameter generated from an additional meta-parameter shared across all tasks – corresponding to empirical Bayes meta-learning (e g using train-test split to learn hyper-parameters) algorithms (Finn et al , 2017; Nguyen et al , 2020a), or a meta-parameter itself – corresponding to metric meta-learning (Vinyals et al , 2016; Snell et al , 2017). 一般にwは、経験的ベイズメタラーニング(例えば、列車テストスプリットを使用してハイパーパラメータを学習する)アルゴリズム(finn et al , 2017; nguyen et al , 2020a)と、メトリックメタラーニングに対応するメタパラメータ(vinyals et al , 2016; snell et al , 2017)に対応する、追加のメタパラメータから生成されるタスク固有のパラメータのいずれかである。 0.76
For simplicity, we will use the latter approach relying on the prototypical network (Snell et al , 2017) with Euclidean distance on the data embedding u, to calculate the classification loss on labelled data. 単純化のために,データ埋め込み u 上のユークリッド距離を持つ原型ネットワーク (Snell et al , 2017) に依存する後者の手法を用いて,ラベル付きデータによる分類損失を計算する。 0.84
This reduces the need to introduce an additional parameter w into our modelling. これにより、モデリングに追加のパラメータwを導入する必要がなくなる。 0.58
Task representation Given the inferred meta-parameters, including the task-themes {µk, Σk}K k=1, the Dirichlet prior {αl}L l=1, the encoder φ and the decoder θ, we can embed the data of a task into a latent space, and calculate its variational Dirichlet posterior of the task-theme mixing coefficients q(π; γi). タスク表現 タスクテーマ {μk, Σk}Kk=1, Dirichlet prior {αl}L l=1, encoder φ, decoder θ を含む推論メタパラメータが与えられたとき、タスクのデータを潜在空間に埋め込むことができ、タスクテーマ混合係数 q(π; γi) の変分ディリクレ後部を計算することができる。 0.72
The obtained distribution can be used represent the corresponding task in the latent task-theme simplex as illustrated in Figure 2. 得られた分布は、図2に示すように、潜在タスクテーマsimplexで対応するタスクを表現できる。 0.79
This new representation of tasks has two advantages comparing to the recently proposed task representation Task2Vec (Achille et al , 2019): (i) it explicitly models and represents tasks without the need of any pre-trained networks to use as a “probe” network, and (ii) it uses a probability distribution, instead of a vector as in Task2Vec, allowing to include modelling uncertainty when representing tasks. このタスクの新しい表現は、最近提案されたtask representation task2vec(achille et al , 2019)と比較して2つの利点がある。 (i) 事前訓練されたネットワークを「プロの」ネットワークとして使う必要なしにタスクを明示的にモデル化し、表現し、 (ii) task2vecのようにベクトルの代わりに確率分布を使用し、タスクを表現する際に不確実性をモデリングすることができる。 0.71
Given the probabilistic nature of PTM, we can use the entropy of PTMの確率的性質を考えると、エントロピーを利用することができる 0.80
6 6 0.85
英語(論文から抽出)日本語訳スコア
6: 7: 8: 9: 6: 7: 8: 9: 0.85
10: 11: 12: 10: 11: 12: 0.85
13: 14: i } and {x(v) 13: 14: i } と {x(v) 0.85
i , y(v) i } 私は , y(v) i } 0.69
Split data into {x(t) i ← f (x(t) m(t) i ← f (x(v) m(v) γ, r ← E-STEP(N (u; m(t) データを {x(t) i と f (x(t) m(t) i と f (x(v) m(v) γ, r と e-step(n (u; m(t)) に分割する。 0.77
, y(t) ; φ) ; φ) , y(t) ; φ) ; φ) 0.85
, s(t) , s(v) , s(t) , s(v) 0.85
i i i i 私は 私は 私は 私は 0.53
i , (s(t) 私は , (s(t)) 0.73
i )2I)) i i i)2I) 私は 私は 0.60
, q∗ end for L = 1 ,q∗ L = 1 の終点 0.76
Calculate “local” task-themes ˜µi, ˜Σi, ˜αi 局所的な」タスクテーマを計算します。 0.59
Calculate L(cid:16)u(v) L(cid:16)u(v) T PT µ, Σ, α ← online_LDA(cid:16) ˜µ1:T , ˜Σ1:T , ˜α1:T(cid:17) θ, φ ← SGD(cid:0)−L(cid:1) 計算 L(cid:16)u(v) L(cid:16)u(v) T PT μ, Σ, α は online_LDA(cid:16) シュμ1:T , シュア1:T , シュア1:T(cid:17) θ, φ は SGD(cid:0)−L(cid:1) である。 0.79
i (z, π)(cid:17) i (z, π)(cid:17) i (z, π)(cid:17) i (z, π)(cid:17) 0.97
, q∗ i=1 i ,q∗ i=1 私は 0.63
Algorithm 1 Online probabilistic task modelling アルゴリズム1 オンライン確率的タスクモデリング 0.75
1: procedure TRAINING 2: 3: 4: 5: 1:手順 訓練 2: 3: 4: 5: 0.76
Initialise LDA parameters: {µk, Σk, αk}K Initialise encoder φ and decoder θ for each mini-batch of Tmini tasks do ldaパラメータの初期化: {μk, σk, αk}k initialise encoder φ and decoder θ for each mini-batch of tmini tasks do 0.87
for i = 1 : Tmini do i = 1 : tmini do の場合 0.87
k=1 15: 16: 17: 18: end procedure k=1 15:16:17:18:終了 0.53
end for return µ, Σ, α, θ, φ 戻り μ, Σ, α, θ, φ 0.59
19: procedure E-STEP(N (u; m, s2I)) 20: 21: 22: 19: 手順 E-STEP(N (u; m, s2I)) 20: 21: 22: 0.96
Initialise r, γ repeat initialise r, γ repeat 0.80
calculate the un-normalised rink 非正規化リンクを計算する 0.32
23: 24: until 1 25: return γ, r 26: 27: end procedure 23: 24: 1 25: return γ, r 26: 27: end procedure 0.79
normalise rin such thatPK PKのような正規化リン 0.47
K |change in γ| < threshold K |change in γ| < threshold 0.92
calculate γik k=1 rink = 1 γik を計算する k=1リンク = 1 0.54
⊲ Eq (13) ⊲ gradient ascent Eq (13) ※勾配上昇 0.55
⊲ Eq (25) eq (25) の略。 0.65
⊲ Eq (29) eq (29) の略。 0.64
the inferred task-theme mixture distribution q(π; γi) as a measure of task uncertainty. タスク・テーマ混合分布 q(π; γi) はタスクの不確かさの尺度である。 0.77
In section 4.1, we empirically show that this measure correlates to the generalisation or test performance. 第4節1では、この尺度が一般化やテスト性能と相関していることが実証的に示されている。
訳抜け防止モード: 第4.1節では この尺度は一般化やテスト性能と相関する。
0.68
In addition, the representation produced by PTM can be used to quantitatively analyse the similarity or distance between two tasks i and j through a divergence between q(π; γi) and q(π; γj). さらに、PTM によって生成される表現は、q(π; γi) と q(π; γj) の間の発散を通して、2つのタスク i と j の間の類似性や距離を定量的に分析するために用いられる。 0.70
Commonly, symmetric distances, such as Jensen-Shannon divergence, Hellinger distance, or earth’s mover distance are employed to calculate the divergence between distributions. 一般的には、jensen-shannonの発散、ヘリンガー距離、地球の移動距離などの対称距離を用いて分布間の発散を計算する。 0.70
However, it is argued that similarity should be represented as an asymmetric measure (Tversky, 1977). しかし、類似性は非対称測度として表現されるべきである(Tversky, 1977)。 0.86
This is reasonable in the context of transfer learning, since knowledge gained from learning a difficult task might significantly facilitate the learning of an easy task, but the reverse might not always have the same level of effectiveness. 難しいタスクを学習することで得られる知識は、簡単なタスクの学習を著しく促進するかもしれないが、逆は常に同じレベルの効果を持つとは限らない。
訳抜け防止モード: これは転帰学習の文脈で理にかなっている。 難しいタスクを学ぶことで得られる知識は、簡単なタスクの学習を著しく促進します。 逆は必ずしも同じ効果のレベルではないかもしれません
0.72
In light of asymmetric distance, we decide to use Kullback-Leibler (KL) divergence, denoted as DKL[.k. 非対称距離に照らして、DKL[.k]と表記されるクルバック・リーブラー(KL)の発散を用いることにした。 0.68
], to measure task distance. ]タスク距離を測定する。 0.68
As DKL [P kQ] is defined as the information lost when using a code optimised for Q to encode the samples of P , we, therefore, calculate DKL [q(π; γT +1)kq(π; γi)], where i ∈ {1, . DKL [P kQ] は、Q に最適化されたコードを用いて P のサンプルを符号化する際に失われた情報として定義されるので、DKL [q(π; γT +1)k(π; γi)] を計算する。
訳抜け防止モード: DKL [ P kQ ] が失われたときの情報として定義される Q に最適化されたコードを使用して P のサンプルを符号化する したがって、DKL [ q(π ; γT +1)k(π ; γi ) ] を計算する。 i ∈ { 1 ,
0.89
. . , T }, to assess how the training task Ti differs from the learning of the novel task TT +1. . . , T }, トレーニングタスクTiが, 新規タスクTT +1の学習とどのように異なるかを評価する。 0.81
4 Experiments In this section, we empirically validate the two properties of PTM – task uncertainty and task distance – through task distance matrix and correlation diagrams. 4つの実験 本稿では,タスク距離行列と相関図を用いて,タスクの不確実性とタスク距離の2つの特性を実証的に検証する。 0.68
We also show two applications of the proposed approach used in active task selection for inductive and transductive life-long metalearning. また,提案手法は,インダクティブ・トランスダクティブ・ライフ・ロング・メタラーニングにおいてアクティブ・タスク選択に用いた2つの応用例を示す。 0.58
The experiments are based on the n-way k-shot tasks formed from Omniglot (Lake et al., 2015) and mini-ImageNet (Vinyals et al , 2016) – the two widely used datasets to evaluate the performance of meta-learning algorithms. 実験は、Omniglot (Lake et al., 2015) と mini-ImageNet (Vinyals et al , 2016) から形成されるn-way k-shotタスクに基づいており、メタアルゴリズムのパフォーマンスを評価するために広く使われている2つのデータセットである。 0.68
7 7 0.85
英語(論文から抽出)日本語訳スコア
5 0 Figure 4: The matrix of log KL distances between Omniglot tasks shows that tasks that are generated from the same alphabet are closer together, denoted as the dark green blocks along the diagonal. 5 0 図4: Omniglot タスク間のログ KL 距離の行列は、同じアルファベットから生成されるタスクが、対角線に沿った暗い緑色のブロックとして近いことを示す。 0.83
The matrix is asymmetric due to the asymmetry of the KL divergence used as the task distance. 行列はタスク距離として使われるkl分岐の非対称性のために非対称である。 0.75
The Omniglot dataset consists of 1623 different handwritten characters from 50 different alphabets, where each character was drawn in black and white by 20 different people. Omniglotデータセットは、50の異なるアルファベットから1623の異なる手書き文字で構成され、各文字は20の異なる人々によって黒と白で描かれた。 0.73
Instead of using random train-test split that mixes all characters, the original split (Lake et al , 2015) is used to yield finergrained classification tasks. 全ての文字を混ぜ合わせたランダムな列車試験スプリットの代わりに、オリジナルのスプリット(Lake et al , 2015)がきめ細かな分類タスクに使用される。 0.69
In addition to the task forming based on randomly mixing characters of many alphabets, the two-level hierarchy of alphabets and characters are utilised to increase the difficulty of the character classification. 多くのアルファベットのランダムな混合文字に基づくタスク形成に加えて、アルファベットと文字の2段階階層が文字分類の難易度を高めるために利用される。 0.80
Note that no data augmentations, such as rotating images by multiples of 90 degrees, is used throughout the experiments. 実験全体を通して、90度の回転画像のようなデータ拡張は行われていないことに注意。 0.79
Also, all images are down-sampled to 64-by-64 pixel2 to simplify the image reconstruct in the decoder. また、デコーダ内の画像再構成を簡単にするため、すべての画像を64×64ピクセルにダウンサンプリングする。 0.61
The mini-ImageNet dataset comprises a small version of ImageNet, which contains 100 classes taken from ImageNet, and each class has 600 colour images. mini-ImageNetデータセットはImageNetの小さなバージョンで構成されており、ImageNetから取得した100のクラスを含み、各クラスは600色のイメージを持っている。 0.68
We follow the common train-test split that uses 64 classes for training, 16 classes for validation, and 20 classes for testing (Ravi and Larochelle, 2017). トレーニングに64のクラス、バリデーションに16のクラス、テストに20のクラス(Ravi and Larochelle, 2017)を使用する一般的なトレインテストのスプリットに従っています。
訳抜け防止モード: トレーニングに64クラスを使用する共通列車 - テスト分割に従います。 検証には16クラス、テストには20クラス(raviとlarochelle、2017年)。
0.77
Similar to Omniglot, all images are also in 64-by-64 pixel2. Omniglotと同様、すべての画像は64×64ピクセルである。 0.69
The encoder used in the experiments consists of 4 convolutional modules, where each module has a convolutional layer with 4-by-4 filters and 2-by-2 stride, followed by a batch normalisation and a leaky rectified linear activation function with a slope of 0.01. 実験で使用されたエンコーダは4つの畳み込みモジュールで構成され、各モジュールは4-by-4フィルタと2-by-2ステップの畳み込み層を持ち、続いてバッチ正規化と0.01勾配のリーク補正線形活性化関数を持つ。 0.73
The output of the last convolutional layer is flattened and connected to a fully connected layer to output the desired dimension for the latent variable u. 最後の畳み込み層の出力は平坦化され、全連結層に接続され、潜在変数uの所望の寸法を出力する。 0.74
The decoder is designed similarly, except that the convolutional operator is replaced by the corresponding transposed convolution. デコーダも同様に設計されているが、畳み込み演算子は対応する転置畳み込みに置き換えられる。 0.74
For the Omniglot dataset, the number of filters within each convolutional layer of the encoder is 8, 16, 32, and 64, respectively, and the dimension of u is 64. 全言語データセットでは、エンコーダの各畳み込み層内のフィルタの数はそれぞれ8,16,32,64であり、uの次元は64である。 0.64
For mini-ImageNet dataset, these numbers are 32, 64, 128 and 256, and the dimension of u is 128. mini-ImageNetデータセットでは、これらの数値は32、64、128、256であり、uの次元は128である。 0.71
The reconstruction loss follows the negative log-likelihood of the continuous Bernoulli distribution (Loaiza-Ganem and Cunningham, 2019), which is often known as binary cross-entropy, while the classification loss is based on the prototypical network used in metric learning. 復元損失は連続したベルヌーイ分布(Loaiza-Ganem と Cunningham, 2019)の負の対数類似性に従い、二進的クロスエントロピーと呼ばれることが多いが、分類損失は計量学習で使われる原型ネットワークに基づいている。 0.80
The training subset of each task, u(t) , is used to calculate the class prototypes, and the classification loss is based on the soft-max function of the distances between the encoding of each input image to those prototypes (Snell et al , 2017). 各タスクのトレーニングサブセットであるu(t)は、クラスプロトタイプの計算に使用され、分類損失は、各入力イメージのエンコーディングとそれらのプロトタイプの間の距離のソフトマックス関数に基づいている(snell et al , 2017)。 0.80
The optimiser used is Adam with the step size of 2 × 10−4 to optimise the parameters of the encoder and decoder after every mini-batch consisting of 20 tasks. 使用するオプティマイザは、ステップサイズが2×10−4のAdamで、20タスクからなるミニバッチ毎にエンコーダとデコーダのパラメータを最適化する。 0.74
For the LDA part, a total of K = 8 task-themes is used. LDA の部分では、合計 K = 8 のタスクテーマが使用される。 0.82
The Dirichlet prior is assumed to be symmetric with a concentration α = 1.1 across both datasets2. ディリクレ前駆体は、両方のデータセット2の濃度 α = 1.1 と対称であると仮定される。 0.64
The parameters of the learning rate used in the online LDA are ρ0 = 106 and ρ1 = 0.5. オンラインLDAで使用される学習率のパラメータは、ρ0 = 106 と ρ1 = 0.5 である。 0.79
A total of 106 episodes are used to train PTM on both datasets. 合計106エピソードを使用して、両方のデータセット上でPTMをトレーニングする。 0.62
We note that setting α > 1 enforces every task to be modelled as a mixture of many task-themes, avoiding the task-themes collapsing into a single task-theme during training. α > 1 の設定は、多くのタスクテーマの混合としてモデル化されるすべてのタスクを強制し、トレーニング中にタスクテーマが1つのタスクテーマに崩壊することを避けることに留意する。 0.62
The phenomenon of task-theme collapse when α < 1 is not observed in LDA, but in PTM due to the integration of VAE. α < 1 が LDA で観測されないときのタスク・テーマの崩壊現象は、VAE の統合による PTM で観測される。 0.81
At the beginning of training, the encoder is inadequate, producing mediocre embedding features. トレーニングの開始時点では、エンコーダは不十分であり、平凡な埋め込み機能を生成する。 0.58
The resulting features, combined with α < 1, makes a task more likely to be represented by a single task-theme. その結果、α < 1 と組み合わされた特徴により、タスクは単一のタスクテーマによって表現されやすくなる。 0.75
By learning solely from that task-theme, the encoder is pushed to bias further toward to that task-theme, making only one task-theme distribution updated, while leaving others unchanged. そのタスクテーマからのみ学習することにより、エンコーダはそのタスクテーマにさらに偏りを生じさせ、タスクテーマの分布を1つだけ更新し、他は変更しない。 0.66
When α > 1, all the task-themes contribute to the representation of a task, so they can be learnt along with the encoder. α > 1 の場合、すべてのタスクテーマはタスクの表現に寄与するので、エンコーダと共に学習することができる。 0.78
i 2https://github.com/ cnguyen10/probabilis tic_task_modelling 私は 2https://github.com/ cnguyen10/probabilis tic_task_modelling 0.40
8 8 0.85
英語(論文から抽出)日本語訳スコア
100 ) % ( y c a r u c c a n o i t c i d e r P 100 ) % ( y c a r u c c a n o i t c i d r p 0.84
80 60 40 100 80 60 40 100 0.85
80 60 Omniglot 80 60 オムニゴロ 0.71
Mini-ImageNet 80 ミニイメージネット 80 0.67
60 40 20 0 60 40 20 0 0.85
−25 −20 −19 −18.5 −18 −17.5 −17 −25 −20 −19 −18.5 −18 −17.5 −17 0.68
Entropy of test tasks テストタスクのエントロピー 0.64
Entropy of test tasks テストタスクのエントロピー 0.64
y = −1.45 · x + 49.05 y = −1.45 · x + 49.05 0.72
y = −4.4 · x − 38.91 y = −4.4 · x − 38.91 0.72
(a) Omniglot (b) (a) オムニゴロ (b) 0.71
Mini-ImageNet 60 ミニイメージネット 60 0.67
40 20 100 150 40 20 100 150 0.85
200 250 900 200 250 900 0.85
1,000 1,100 1,200 1,000 1,100 1,200 0.47
KL [testktrain] KL[テストトレイン] 0.79
KL [testktrain] KL[テストトレイン] 0.79
y = −8.55 · 10−2 · x + 87.68 y = −8.55 · 10−2 · x + 87.68 0.69
y = −5.04 · 10−2 · x + 91.02 y = −5.04 · 10−2 · x + 91.02 0.69
(c) (d) Figure 5: Correlation diagrams between prediction accuracy made by MAML on 100 5-way 1-shot testing tasks versus: (a) and (b) entropy of the inferred task-theme mixture distributions, and (c) and (d) the KL distances from testing to training tasks. (c) (d) 図5:100-way 1-shotテストタスクにおけるmamlによる予測精度と推定されたタスク-テーマ混合分布のエントロピーとの相関図(a)および(b)テストからトレーニングタスクまでのkl距離(c)及び(d) 0.82
The results show that largest the task entropy or distances, the worse the testing performance. その結果,タスクエントロピーや距離が大きいほど,テストパフォーマンスが悪くなることがわかった。 0.68
The blue dots are the prediction made the MAML and PTM, the solid line is the mean of Bayesian Ridge regression, and the shaded areas correspond to ±1 standard deviation around the mean. 青色ドットはMAMLとPTMの予測であり、固体線はベイジアンリッジ回帰の平均であり、陰影領域は平均付近の±1標準偏差に対応する。 0.65
4.1 Task distance matrix and correlation diagrams 4.1 タスク距離行列と相関図 0.81
Task distance matrix is used as one of the tools to qualitatively validate the prediction made by PTM. タスク距離行列は PTM による予測を定性的に検証するツールの1つである。 0.72
In particular, the hypothesis is that the PTM would predict small distances for tasks that are close together. 特に、この仮説は、PTMが近接したタスクの小さな距離を予測できるというものである。 0.72
Since the “labels” specifying the closedness of tasks are unknown, we utilise the hierarchical structure of Omniglot dataset to form tasks. タスクのクローズネスを指定する“ラベル”は未知であるため、Omniglotデータセットの階層構造を利用してタスクを形成する。 0.74
Each task is generated by firstly sampling an alphabet, and then choosing characters in that alphabet. 各タスクはまずアルファベットをサンプリングし、次にそのアルファベットの文字を選択することで生成される。 0.74
Under this strategy, tasks formed from the same alphabet would have small distances comparing to tasks from different alphabets. この戦略の下では、同じアルファベットから形成されたタスクは異なるアルファベットのタスクと比較して小さな距離を持つ。 0.68
Figure 4 shows the task distances between 50 testing tasks of Omniglot dataset, where each block of 5 tasks on rows and columns of the task distance matrix corresponds to a group of tasks sampled from the same alphabet. 図4は、全言語データセットの50のテストタスク間のタスク距離を示し、タスク距離マトリックスの行と列上の5つのタスクの各ブロックは、同じアルファベットからサンプリングされたタスクのグループに対応します。 0.79
The result, especially the square 5-task-by-5-task blocks along the diagonal, agrees well with the hypothesis. その結果、特に正方形の5-task-by-5-taskブロックは対角線に沿っており、仮説とよく一致する。
訳抜け防止モード: その結果、特に正方形5タスク - 対角線に沿った5-タスクブロック。 その仮説に合致する。
0.60
Note that the distance matrix shown in Figure 4 is asymmetric due to the asymmetric nature of the KL divergence used to measure task distance. 図4に示す距離行列は、タスク距離を測定するために使用されるKL分散の非対称性のために非対称である。 0.83
9 9 0.85
英語(論文から抽出)日本語訳スコア
We use a correlation diagram between prediction accuracy made by MAML and the task entropy produced by PTM as another verification. 我々は,MAML による予測精度と PTM によるタスクエントロピーの相関図を別の検証として用いた。 0.79
Since the task entropy denotes the uncertainty when modelling a task, we hypothesise that it proportionally relates to the difficulty when learning that task. タスクエントロピーはタスクをモデル化する際の不確実性を表すため、タスクを学習する際の困難度に比例する。 0.69
To construct the correlation diagram, we firstly train a meta-learning model based on MAML using the training tasks of the two datasets, and evaluating the performance on 100 random testing tasks. 相関図を構築するために,まず2つのデータセットのトレーニングタスクを用いてMAMLに基づくメタ学習モデルを訓練し,100個のランダムテストタスクのパフォーマンスを評価する。 0.85
Secondly, we calculate the task entropy for those 100 testing tasks. 次に、これらの100個のテストタスクのタスクエントロピーを計算する。 0.58
Finally, we plot the prediction accuracy and task entropy in Figures 5a and 5b. 最後に,予測精度とタスクエントロピーを図5a,図5bにプロットする。 0.79
The results on both datasets show that the higher the task uncertainty, the worse the test performance. 両データセットの結果は、タスクの不確実性が高ければ高いほど、テストパフォーマンスが悪くなることを示している。
訳抜け防止モード: 両データセットの結果は、タスクの不確実性が高くなることを示している。 テスト性能が悪くなる
0.65
This observation, therefore, agrees with our hypothesis about task entropy. この観察は、タスクエントロピーに関する我々の仮説に一致する。 0.67
We conduct another correlation diagram between training-testing task distance and the test performance to verify further the proposed PTM. トレーニングテストタスク距離とテスト性能の相関図を作成し,提案したPTMをさらに検証する。 0.75
Our hypothesis is the inverse proportion between trainingtesting task distance and prediction accuracy. 我々の仮説は、訓練作業距離と予測精度の逆比である。 0.72
A similar experiment as in task uncertainty is carried out with a modification in which the task uncertainty is replaced by the average KL divergence between all training tasks to each testing task. タスク不確実性に関する同様の実験は、タスク不確実性が各テストタスクに対するすべてのトレーニングタスク間の平均KLばらつきに置き換えられる修正によって行われる。 0.81
Due to the extremely large number of training tasks, e g more than 1012 unique 5-way tasks can be generated from both the two datasets, the calculation of the distance measure is infeasible. 非常に多くのトレーニングタスク、例えば1012以上のユニークな5方向タスクを2つのデータセットから生成できるため、距離測定の計算は不可能である。 0.69
To make the training and testing tasks manageable, we randomly generate 10, 000 tasks for training, and 100 tasks for testing. トレーニングとテストのタスクを管理できるように、トレーニング用の10,000タスクとテスト用の100タスクをランダムに生成します。 0.74
This results in 1, 000, 000 distances, which can be calculated in parallel with multiple computers. これにより1,000,000の距離が計算され、複数のコンピュータと並列に計算できる。 0.80
A testing task can be represented in the correlation diagram through its prediction accuracy and the average KL distance to training tasks, which is defined as: テストタスクは、その予測精度とトレーニングタスクへの平均KL距離によって相関図に表すことができる。
訳抜け防止モード: テストタスクはその予測精度を通じて相関図に表すことができる トレーニングタスクまでの平均KL距離は:と定義されている。
0.80
DKL(γT +1) = DKL(γT +1) = 0.92
1 T T Xi=1 DKL[q(π; γT +1)kq(π; γi)]. 1T T Xi=1 DKL[q(π; γT +1)q(π; γi)] 0.76
The correlation diagrams for both datasets are then plotted in Figures 5c and 5d. 両方のデータセットの相関図は図5cと5dにプロットされる。 0.81
The results agree well with our hypothesis, in which the further a testing task is from the training tasks, the worse the prediction accuracy. 実験結果は,トレーニングタスクからさらにテストタスクを行う場合,予測精度が悪くなるという仮説とよく一致した。 0.69
This enables us to use the new representation produced by PTM to analyse task similarity. これにより、PTMによって生成された新しい表現を使ってタスクの類似性を分析することができる。 0.54
4.2 Lifelong few-shot meta-learning 4.2 生涯数ショットメタラーニング 0.49
To further evaluate PTM, we conduct experiments following the lifelong learning framework (Ruvolo and Eaton, 2013) with slight modification where the supervised tasks are replaced by 5-way 1-shot learning episodes. PTMをさらに評価するため, 生涯学習フレームワーク (Ruvolo と Eaton, 2013) に追随する実験を行い, 教師付きタスクを5方向1ショットの学習エピソードに置き換えた。 0.76
More precisely, the setting consists of a meta-learning model and a pool of Tpool tasks. より正確には、設定はメタ学習モデルとTpoolタスクのプールで構成される。 0.78
At each time step, a task selected from the pool is used to update the meta-learning model, and discarded from the pool. 各時間ステップでは、プールから選択したタスクを使用してメタ学習モデルを更新し、プールから破棄する。 0.77
A new task is then added to the pool to maintain Tpool tasks available for learning. 学習用に利用可能なTpoolタスクを維持するために、新しいタスクがプールに追加される。 0.76
The criterion for selecting a task to update the meta-learning model will depend on the objective of interest. メタ学習モデルを更新するタスクを選択するための基準は、関心の目的に依存する。 0.75
Two common objectives often observed in practice are: 実際には2つの共通の目的がある。 0.53
• Induction: the selected training task is expected to encourage the meta-learning model to •誘導:選択した訓練課題はメタラーニングモデルを奨励することが期待される。 0.77
be able to rapidly adapt to any future task, あらゆる将来のタスクに迅速に適応することができる 0.74
• Transduction: the selected training task is targeted toward one or many specific testing ・翻訳:選択した訓練課題が1つ以上の特定試験を対象とする 0.76
tasks. In the induction setting, the performance of the meta-learning model trained on tasks selected by PTM is compared with three baselines: Task2Vec (Achille et al , 2019), the “worst-case” approach (Collins et al , 2020) and random selection. タスク。 誘導設定では、PTMによって選択されたタスクに基づいて訓練されたメタラーニングモデルのパフォーマンスを、Task2Vec(Achille et al , 2019)、"Worst-case"アプローチ(Collins et al , 2020)、ランダム選択の3つのベースラインと比較する。
訳抜け防止モード: タスク。 誘導設定では, PTM が選択したタスクに基づくメタ学習モデルの性能を, Task2Vec (Achille et al, 2019) の3つのベースラインと比較した。 最悪のケース"アプローチ(Collins et al, 2020) ランダムな選択
0.68
For the PTM, the selection criteria is based on the task entropy specified in section 3, where the training task with highest entropy is chosen for the learning. PTMでは、選択基準は、第3節で規定されるタスクエントロピーに基づいており、学習に最も高いエントロピーを有するトレーニングタスクが選択される。 0.68
For Task2Vec, tasks with large embedding norm are reported as difficult to learn. task2vecの場合、大きな埋め込みノルムを持つタスクは学ぶのが難しいと報告される。 0.60
Hence, we pick the one with the largest L1 norm produced by Task2Vec as the training task. したがって、task2vecが生成する最大のl1ノルムをトレーニングタスクとして選択する。 0.65
Originally, Task2Vec requires fine-tuning a pre-trained network (known as probe network) on labelled data of a task. もともとTask2Vecは、タスクのラベル付きデータに事前訓練されたネットワーク(プローブネットワークとして知られる)を微調整する必要がある。 0.57
This fine-tuning step is, however, infeasible for few-shot learning due to the insufficient number of labelled data. しかし、この微調整のステップはラベル付きデータの不足のため、数発の学習では不可能である。 0.56
We address this issue by training a MAML-based network to use as a probe network. 我々は、MAMLベースのネットワークをプローブネットワークとして使用するように訓練することでこの問題に対処する。
訳抜け防止モード: 我々はこの問題に対処する プローブネットワークとして使用するMAMLベースのネットワークをトレーニングする。
0.73
When given few-shot data of a training task, the MAML-based probe network perform gradient update to adapt to that task. トレーニングタスクの少数ショットデータを与えると、MAMLベースのプローブネットワークはそのタスクに対応するために勾配更新を実行する。 0.66
The task-specific embedding can, therefore, be calculated using the adapted probe network. したがって、タスク固有の埋め込みは、適合したプローブネットワークを使って計算できる。 0.63
We follow the Monte Carlo approach specified in the public code of Task2Vec to calculate the corresponding task embedding. 我々はTask2Vecの公開コードで指定されたMonte Carloアプローチに従い、対応するタスクの埋め込みを計算する。 0.72
For the “worst-case” approach, the training task that results in the highest loss for the current meta-learning model is selected. Worst-case”アプローチでは、現在のメタ学習モデルにとって最も損失が大きいトレーニングタスクが選択されます。 0.72
Due to this nature, the “worst-case” approach requires to evaluate all losses for each task in the pool at every この性質のため、"Worst-case"アプローチでは、プール内の各タスクに対するすべての損失を評価する必要がある。
訳抜け防止モード: このような性質のため,“最悪の - ケース ” なアプローチでは プール内の各タスクのすべての損失を評価する
0.81
10 10 0.85
英語(論文から抽出)日本語訳スコア
Induction Transduction ) % ( y c a r u c c a n o i t c i d e r P 誘導 転向 ) % (y c a r u c c a n o i t c i d e r P) 0.72
42 41.5 41 42 41.5 41 0.76
40.5 40 100 40.5 40 100 0.76
200 300 42 200 300 42 0.85
41.5 41 40.5 41.5 41 40.5 0.68
40 100 200 40 100 200 0.85
300 PTM Task2Vec Worst case Random 300 PTM Task2Vec 最悪のケース 0.81
Number of training tasks (×1, 000) トレーニングタスク数(×1,000) 0.67
Number of training tasks (×1, 000) トレーニングタスク数(×1,000) 0.67
(a) (b) Test on 15, 504 mini-ImageNet tasks 42 (a) (b) 15,504ミニイメージネットタスク42のテスト 0.82
41 40 MAML Protonet ABML 41 40 MAML Protonet ABML 0.85
PTM Task2Vec PTM Task2Vec 0.72
Worst case Random 最悪の場合 ランダム 0.71
(c) Figure 6: Exponential weighted moving average (EWMA) of prediction accuracy made by MAML following the lifelong learning for 100 random 5-way 1-shot tasks sampled from mini-ImageNet testing set: (a) inductive setting, and (b) transductive setting. (c) 図6: 指数重み付き移動平均(ewma) mamlによる予測精度の指数的重み付けは、mini-imagenetテストセットからサンプリングされた100のランダムな5ウェイ1ショットタスクの生涯学習に従って行われる: (a)インダクティブセッティング、および (b)トランスダクティブセッティング。
訳抜け防止モード: (c) 図6:mini-ImageNetテストセットからサンプリングした100個のランダム5方向1ショットタスクの生涯学習後のMAMLによる予測精度の指数重み付き移動平均(EWMA) : (a)帰納的設定 および (b) トランスダクティブ設定。
0.86
The EWMA weight is set to 0.98 to smooth the noisy signal. EWMA重量は0.98に設定され、ノイズ信号が滑らかになる。 0.69
(c) Prediction accuracy made by models trained on different task selection approaches on all 5-way 1-shot testing tasks generated from mini-ImageNet. (c)mini-imagenetから生成された5方向1ショットテストタスクの異なるタスク選択アプローチで訓練されたモデルによる予測精度。 0.75
The error bars correspond to 95 percent confident interval. エラーバーは95%の信頼区間に対応する。 0.73
time step, leading to an extensive computation and might not scale well when the number of tasks in the pool is large. 時間ステップは広範な計算につながり、プール内のタスク数が大きくなるとうまくスケールしない可能性がある。 0.77
For simplicity, we use MAML to train the meta-learning model of interest for each selection strategy. シンプルにするために、選択戦略ごとにメタ学習モデルをトレーニングするためにMAMLを使用します。 0.74
The transduction setting follows a similar setup as the induction case, but the testing tasks, including the labelled and unlabelled data, are known during training. トランスダクション設定はインジェクションケースと同様のセットアップに従うが、ラベル付きデータや非ラベル付きデータを含むテストタスクは、トレーニング中に知られている。 0.69
For PTM, the average KL distances between all testing tasks to each training task in the task pool are calculated, and the training task with smallest average distance is selected. ptmでは、タスクプール内の各トレーニングタスクに対するすべてのテストタスク間の平均kl距離を算出し、最小の平均距離のトレーニングタスクを選択する。
訳抜け防止モード: PTMでは、各テストタスクからタスクプールの各トレーニングタスクまでの平均KL距離を算出する。 そして 平均距離が最小の訓練課題が選択される。
0.79
For Task2Vec, the proposed cosine distance between normalised task embeddings is used to calculate the average distance between all testing tasks to each training task (Achille et al , 2019). Task2Vecでは、正規化タスク埋め込み間の余剰距離を用いて、各トレーニングタスク間の平均距離を算出する(Achille et al , 2019)。 0.69
Similar to PTM, the training task with the smallest distance is prioritised for the learning. PTMと同様に、最小距離のトレーニングタスクが学習に優先される。 0.68
For the “worst-case” approach, the entropy of the prediction ˆy on C-way testing tasks is used as the measure: Worst-case” アプローチでは、Cウェイテストタスクにおける予測のエントロピーが測定基準として使用される。 0.63
ST +1 = − C ST+1 = − C 0.86
Xc=1 ˆyc ln ˆyc, Xc=1 原題は『yc ln syc』。 0.49
and the task that contributed to the highest entropy at prediction is chosen (MacKay, 1992). そして、予測における最も高いエントロピーに寄与したタスクが選択される(MacKay, 1992)。 0.73
The “worst-case” approach, therefore, requires Tpool trials at every time step. そのため、”Worst-case”アプローチでは、Tpoolのトライアルを毎回行う必要がある。 0.61
In each trial, the current meta-model is adapted to each training task in the pool, and then the average prediction entropy on all testing tasks is calculated. 各トライアルでは、現在のメタモデルがプール内の各トレーニングタスクに適合し、その後、全てのテストタスクにおける平均予測エントロピーが計算される。 0.76
This results in an extremely extensive computation. これにより非常に広範な計算が可能となる。 0.59
11 11 0.85
英語(論文から抽出)日本語訳スコア
Four MAML-based meta-learning models are initialised identically and trained on the tasks selected from a pool of Tpool = 200 tasks according to the four criteria mentioned above. 4つのmamlベースのメタ学習モデルが同一に初期化され、上記の4つの基準に従って、tpool = 200タスクのプールから選択されたタスクに基づいてトレーニングされる。
訳抜け防止モード: 4つのmamlベースのメタ学習モデルが同一に初期化される 上記の4つの基準に従って,tpool = 200タスクのプールから選択したタスクをトレーニングする。
0.67
Figures 6a and 6b show the testing results on 100 random mini-ImageNet tasks after every 500 time steps. 図6a、6bは500ステップ毎に100のランダムなミニイメージネットタスクのテスト結果を示しています。 0.67
Note that the plotted results are smoothed by the exponential weighted moving average with a weight of 0.98 to ease the visualisation. プロットの結果は指数重み付き移動平均0.98で滑らかになり、可視化が容易になる。 0.65
In general, PTM, Task2Vec and “worst-case” can generalise better than random task selection. 一般に、PTM、Task2Vec、"Worst-case"はランダムなタスク選択よりもうまく一般化できる。 0.65
In addition, the model trained with tasks chosen by PTM performs slightly better than Task2Vec and the “worst-case” approach in both settings. さらに、PTMによって選択されたタスクでトレーニングされたモデルは、Task2Vecや“Worst-case”アプローチよりも若干優れている。 0.66
This observation might be explained based on the designated purpose of Task2Vec and the “worst-case” approach. この観察は、task2vec の指定目的と “worst-case” アプローチに基づいて説明できる。 0.73
Task2Vec requires a sufficient number of labelled data to fine-tune its probe network to calculate task embedding. task2vecは、タスク埋め込みを計算するためにプローブネットワークを微調整するために十分な数のラベル付きデータを必要とする。
訳抜け防止モード: Task2Vecには十分な数のラベル付きデータが必要です。 プローブネットワークを調整して タスクの埋め込みを計算します
0.64
Hence, it might not work well in few-shot learning. したがって、少数の学習ではうまく機能しないかもしれない。 0.62
For the “worst-case”, tasks are selected according to a measure based on the current meta-model without taking task relatedness into account. の場合には、タスク関連性を考慮せずに現在のメタモデルに基づいてタスクが選択される。 0.67
PTM, however, has a weakness in active selection since the approach only focuses on task uncertainty or task similarity without considering the current state of the meta-learning model. しかし、PTMは、メタラーニングモデルの現状を考慮せずにタスクの不確実性やタスク類似性のみに焦点を当てるため、アクティブセレクションの弱点がある。 0.68
Nevertheless, PTM still provides a good selection criterion comparing to Task2Vec and the “worstcase” approaches. それでも PTM は Task2Vec や “Worstcase” アプローチと比較して,優れた選択基準を提供している。 0.70
Note that although the active task selection is able to select the best task within the pool, there might be the case where all remaining tasks in the pool are uninformative, resulting in overfitting as observed in Figure 6a. アクティブなタスク選択は、プール内で最高のタスクを選択することができるが、プール内の残りのタスクがすべて非形式的である場合があり、図6aで見られるように過度に適合する。 0.79
However, for simplicity, no additional mechanism is integrated to decide whether to learn from the selected task, or simply discarded from the pool. しかし、単純さのため、選択したタスクから学ぶか、単にプールから捨てるかを決める追加のメカニズムは統合されていない。 0.65
We believe that adding L2 regularisation or applying early stopping based on a validation set of tasks will help with this overfitting issue. L2の正規化や、タスクの検証セットに基づいた早期停止の適用は、この過度な問題に役立ちます。 0.65
To further compare, we implement two additional meta-learning algorithms: Prototypical Networks (Snell et al , 2017) and Amortised Bayesian meta-learning (ABML) (Ravi and Beatson, 2019) and show results for the induction setting on all available testing 5-way 1-shot tasks of miniImageNet in Figure 6c. さらに,prototypepical networks (snell et al , 2017) と amortized bayesian meta-learning (abml) (ravi and beatson, 2019) という2つのメタ学習アルゴリズムを実装し,図6cのminiimagenetの利用可能な5-way 1-shotタスクのインダクション設定の結果を示す。 0.82
Again, the prediction accuracy made by the model trained on tasks selected by PTM outperforms other baselines, especially the random one by a large margin. PTMによって選択されたタスクに基づいてトレーニングされたモデルによる予測精度は、他のベースライン、特にランダムなタスクよりも大きなマージンで優れている。 0.67
5 Conclusion We propose a generative approach based on variational auto-encoding and LDA adopted in topic modelling to model tasks used in meta-learning. 5 結論 本稿では,メタラーニングで使用されるタスクをモデル化するトピックモデリングにおいて,変分自動符号化とLDAを用いた生成手法を提案する。 0.64
Under this modelling approach, the dataset associated with a task can be expressed as a mixture model of finite Gaussian distributions, where each task differs at the mixture coefficients. このモデリングアプローチでは、タスクに関連するデータセットを有限ガウス分布の混合モデルとして表現することができ、各タスクは混合係数で異なる。 0.79
An online VI method is presented to infer the parameters of the Gaussian task-theme distributions. ガウス課題テーマ分布のパラメータを推定するために,オンラインVI法を提案する。
訳抜け防止モード: オンラインVI 方式が提示される Gaussianタスク - テーマ分布のパラメータを推測する。
0.75
The obtained model allows us to represent a task by its variational distribution of mixture coefficient in a latent task-theme simplex, enabling the quantification of either the task uncertainty or task similarity for active task selection. 得られたモデルにより、潜在タスクテーマにおける混合係数の変動分布によってタスクを表現することができ、タスクの不確実性やタスク類似性の定量化を可能にする。 0.82
References Achille, Alessandro, Michael Lam, Rahul Tewari, Avinash Ravichandran, Subhransu Maji, Charless C Fowlkes, Stefano Soatto, and Pietro Perona (2019). 参考文献 Achille, Alessandro, Michael Lam, Rahul Tewari, Avinash Ravichandran, Subhransu Maji, Charless C Fowlkes, Stefano Soatto, Pietro Perona (2019) 0.70
“TASK2VEC: Task embedding for metalearning”. TASK2VEC: メタラーニングのためのタスク埋め込み。 0.51
In: International Conference on Computer Vision, pp. In: International Conference on Computer Vision, pp。 0.81
6430–6439. 6430–6439. 0.71
Allen, Kelsey, Evan Shelhamer, Hanul Shin, and Joshua Tenenbaum (2019). Allen, Kelsey, Evan Shelhamer, Hanul Shin, Joshua Tenenbaum (2019) 0.69
“Infinite mixture prototypes for few-shot learning”. 数発の学習のための無限混合プロトタイプ”。 0.65
In: International Conference on Machine Learning. 英語: International Conference on Machine Learning。 0.75
PMLR, pp. 232– 241. pmlr、p。 232– 241. 0.71
Bakker, Bart and Tom Heskes (2003). Bakker, Bart and Tom Heskes(2003年) 0.77
“Task clustering and gating for Bayesian multitask learning”. ベイズ型マルチタスク学習のためのタスククラスタリングとゲーティング。 0.61
In: Journal of Machine Learning Research 4.May, pp. In: Journal of Machine Learning Research 4. May, pp. 0.98
83–99. Bishop, Christopher M (2006). 83–99. クリストファー・m・ビショップ(2006年)。 0.61
Pattern recognition and machine learning. パターン認識と機械学習。 0.75
Springer. Blei, David M, Andrew Y Ng, and Michael I Jordan (2003). Springer Blei、David M、Andrew Y Ng、Michael I Jordan (2003)。 0.62
“Latent Dirichlet allocation”. 「相対ディリクレ割当」。 0.33
In: Journal of Machine Learning Research 3.Jan, pp. イン・ジャーナル of Machine Learning Research 3.Jan, pp. 0.72
993–1022. Canini, Kevin, Lei Shi, and Thomas Griffiths (2009). 993–1022. Canini, Kevin, Lei Shi, Thomas Griffiths (2009)。 0.72
“Online inference of topics with latent Dirichlet 『潜在ディリクレの話題のオンライン推論』 0.63
allocation”. In: Artificial Intelligence and Statistics, pp. 割り当て”。 In: AI and Statistics, pp。 0.64
65–72. Collins, Liam, Aryan Mokhtari, and Sanjay Shakkottai (2020). 65–72. Collins, Liam, Aryan Mokhtari, Sanjay Shakkottai (2020)。 0.72
“Task-Robust Model-Agnostic Meta- Task-Robust Model-Agnostic Meta- 0.58
Learning”. In: Advances in Neural Information Processing Systems. 学習”。 in: 神経情報処理システムの進歩。 0.72
Das, Rajarshi, Manzil Zaheer, and Chris Dyer (2015). Das, Rajarshi, Manzil Zaheer, and Chris Dyer (2015) 0.76
“Gaussian lda for topic models with word embeddings”. 用語埋め込みのあるトピックモデルのためのgaussian lda。 0.59
In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pp. 第53回計算言語学会年次大会紀要と第7回自然言語処理国際合同会議(第1巻:長い論文) 0.51
795–804. 12 795–804. 12 0.78
英語(論文から抽出)日本語訳スコア
Dhillon, Guneet S, Pratik Chaudhari, Avinash Ravichandran, and Stefano Soatto (2020). Dhillon, Guneet S, Pratik Chaudhari, Avinash Ravichandran, Stefano Soatto (2020)。 0.73
“A baseline for few-shot image classification”. 『ベースライン』 のイメージ分類を行う。 0.59
In: International Conference on Learning Representations. 英語) International Conference on Learning Representations(英語) 0.71
Finn, Chelsea, Pieter Abbeel, and Sergey Levine (2017). Finn, Chelsea, Pieter Abbeel, Sergey Levine (2017)。 0.74
“Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks”. 深層ネットワークの高速適応のためのモデル非依存メタラーニング 0.57
In: International Conference on Machine Learning, pp. in: international conference on machine learning, pp. (英語) 0.74
1126– 1135. 1126– 1135. 0.94
Foulds, James, Levi Boyles, Christopher DuBois, Padhraic Smyth, and Max Welling (2013). Foulds、James、Levi Boyles、Christopher DuBois、Padhraic Smyth、Max Welling (2013)。 0.69
“Stochastic collapsed variational Bayesian inference for latent Dirichlet allocation”. Stochasticは、遅延ディリクレ割り当てに対する変分ベイズ推定を崩壊させた。 0.47
In: International Conference on Knowledge Discovery and Data Mining (ACM SIGKDD), pp. In: International Conference on Knowledge Discovery and Data Mining (ACM SIGKDD), pp。 0.76
446–454. Griffiths, Thomas L and Mark Steyvers (2004). 446–454. Griffiths, Thomas L and Mark Steyvers (2004)。 0.77
“Finding scientific topics”. 専門は「科学研究」。 0.63
In: Proceedings of the In:Proceedings of the ~ 0.68
National Academy of Sciences 101.suppl 1, pp. 国立科学アカデミー 101.suppl 1, pp. 0.86
5228–5235. 5228–5235. 0.71
Hoffman, Matthew, Francis R Bach, and David M Blei (2010). Hoffman, Matthew, Francis R Bach, and David M Blei (2010)。 0.82
“Online learning for latent Dirichlet 「潜伏ディリクレのオンライン学習」 0.62
allocation”. In: Advances in Neural Information Processing Systems, pp. 割り当て”。 In: Advances in Neural Information Processing Systems, pp。 0.74
856–864. Jacob, Laurent, Jean-philippe Vert, and Francis R Bach (2009). 856–864. Jacob, Laurent, Jean-philippe Vert, and Francis R Bach (2009)。 0.81
“Clustered multi-task learning: A クラスタ化マルチタスク学習:a 0.66
convex formulation”. convex の定式化。 0.62
In: Advances in Neural Information Processing Systems, pp. In: Advances in Neural Information Processing Systems, pp。 0.81
745–752. Kingma, Diederik P and Max Welling (2014). 745–752. Kingma, Diederik P and Max Welling (2014年) 0.70
“Auto-encoding variational Bayes”. 「自動エンコード変分ベイ」。 0.66
In: International Conference on Learning Representation. in:国際化 学習表現に関する会議。 0.82
Lake, Brenden M, Ruslan Salakhutdinov, and Joshua B Tenenbaum (2015). lake, brenden m, ruslan salakhutdinov, joshua b tenenbaum (2015)。 0.63
“Human-level concept Human‐level concept 0.78
learning through probabilistic program induction”. 確率的プログラム誘導による学習。 0.75
In: Science 350.6266, pp. in: science 350.6266, pp. (英語) 0.57
1332–1338. 1332–1338. 0.71
Li, Fei-Fei and Pietro Perona (2005). Li, Fei-Fei and Pietro Perona (2005)。 0.94
“A Bayesian hierarchical model for learning natural scene categories”. 「自然景観のカテゴリを学習するためのベイズ階層モデル」 0.81
In: International Conference on Computer Vision and Pattern Recognition. In: International Conference on Computer Vision and Pattern Recognition (英語) 0.88
Vol. 2, pp. 524–531. Vol。 2、p。 524–531. 0.71
Loaiza-Ganem, Gabriel and John P Cunningham (2019). Loaiza-Ganem, Gabriel and John P Cunningham (2019) 0.87
“The continuous Bernoulli: fixing a perva- 『連続ベルヌーイ:ペルヴァの修正』 0.52
sive error in variational autoencoders”. sive error in variational autoencoder”。 0.73
In: Advances in Neural Information Processing Systems. in: 神経情報処理システムの進歩。 0.71
MacKay, David JC (1992). mackay, david jc (1992)。 0.65
“The evidence framework applied to classification networks”. 「エビデンス・フレームワークは分類ネットワークに適用される。」 0.73
In: Neural In: Neural 0.85
computation 4.5, pp. 720–736. 4.5, pp。 720–736. 0.76
Nguyen, Cuong, Thanh-Toan Do, and Gustavo Carneiro (2020a). Nguyen, Cuong, Thanh-Toan Do, Gustavo Carneiro (2020a)。 0.88
“Uncertainty in model-agnostic meta-learning using variational inference”. 「変分推論を用いたモデル非依存メタラーニングの不確かさ」 0.60
In: Winter Conference on Applications of Computer Vision, pp. In: Winter Conference on Applications of Computer Vision, pp。 0.81
3090–3100. 3090–3100. 0.71
Nguyen, Cuong V, Tal Hassner, Cedric Archambeau, and Matthias Seeger (2020b). Nguyen, Cuong V, Tal Hassner, Cedric Archambeau, Matthias Seeger (2020b)。 0.78
“LEEP: A New Measure to Evaluate Transferability of Learned Representations”. “leep: 学習した表現の転送可能性を評価するための新しい尺度”。 0.64
In: International Conference on Machine Learning. 英語: International Conference on Machine Learning。 0.75
Pritchard, Jonathan K, Matthew Stephens, and Peter Donnelly (2000). Pritchard, Jonathan K, Matthew Stephens, Peter Donnelly (2000)。 0.73
“Inference of population struc- 人口ストルークの回顧- 0.45
ture using multilocus genotype data”. multilocus genotype data"を使用する。 0.86
In: Genetics 155.2, pp. 遺伝学 155.2, pp。 0.73
945–959. Ravi, Sachin and Alex Beatson (2019). 945–959. Ravi, Sachin and Alex Beatson (2019) 0.72
“Amortized Bayesian Meta-Learning.” In: International amortized bayesian meta-learning" in: international 0.77
conference on learning representation. 学習表現に関する会議です 0.81
Ravi, Sachin and Hugo Larochelle (2017). Ravi, Sachin and Hugo Larochelle (2017)。 0.83
“Optimization as a model for few-shot learning”. 数ショット学習のモデルとしての最適化”。 0.74
In: International Conference on Learning Representations. 院 International Conference on Learning Representations(英語) 0.51
Rusu, Andrei A, Dushyant Rao, Jakub Sygnowski, Oriol Vinyals, Razvan Pascanu, Simon Osindero, and Raia Hadsell (2019). Rusu, Andrei A, Dushyant Rao, Jakub Sygnowski, Oriol Vinyals, Razvan Pascanu, Simon Osindero, Raia Hadsell (2019) 0.73
“Meta-learning with latent embedding optimization”. 「潜在埋め込み最適化によるメタ学習」 0.72
In: International Conference on Learning Representations. 英語) International Conference on Learning Representations(英語) 0.71
Ruvolo, Paul and Eric Eaton (2013). Ruvolo, Paul and Eric Eaton (2013)。 0.81
“Active task selection for lifelong machine learning”. 生涯機械学習のためのアクティブタスク選択」。 0.69
In: Pro- ceedings of the AAAI Conference on Artificial Intelligence. In:Pro- 人工知能学会(AAAI Conference on Artificial Intelligence)の略。 0.77
Vol. 27. Shui, Changjian, Mahdieh Abbasi, Louis-Emile Robitaille, Boyu Wang, and Christian Gagné (2019). Vol。 27. Shui, Changjian, Mahdieh Abbasi, Louis-Emile Robitaille, Boyu Wang, Christian Gagné (2019) 0.81
“A Principled Approach for Learning Task Similarity in Multitask Learning”. 「マルチタスク学習におけるタスク類似性学習のための原則的アプローチ」 0.79
In: International Joint Conference on Artificial Intelligence, pp. in: international joint conference on artificial intelligence, pp. (英語) 0.78
3446–3452. 3446–3452. 0.71
Snell, Jake, Kevin Swersky, and Richard Zemel (2017). Snell, Jake, Kevin Swersky, Richard Zemel (2017)。 0.75
“Prototypical networks for few-shot learn- 「数発学習のためのプロトタイプネットワーク」 0.53
ing”. In: Advances in Neural Information Processing Systems, pp. ing”。 In: Advances in Neural Information Processing Systems, pp。 0.79
4077–4087. 4077–4087. 0.71
Teh, Yee W, David Newman, and Max Welling (2007). Teh, Yee W, David Newman, and Max Welling (2007)。 0.82
“A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation”. a collapseal bayesian inference algorithm for latent dirichlet allocation" の略。 0.56
In: Advances in neural information processing systems, pp. in: advances in neural information processing systems, pp. (英語) 0.78
1353–1360. 1353–1360. 0.71
Thrun, Sebastian and Joseph O’Sullivan (1996). Thrun, Sebastian and Joseph O’Sullivan (1996)。 0.81
“Discovering structure in multiple learning tasks: 「複数の学習課題における構造発見」 0.72
The TC algorithm”. tcアルゴリズム”です。 0.64
In: International Conference on Machine Learning. 英語: International Conference on Machine Learning。 0.75
Vol. 96, pp. Vol。 96, pp。 0.80
489–497. Tran, Anh T, Cuong V Nguyen, and Tal Hassner (2019). 489–497. Tran, Anh T, Cuong V Nguyen, Tal Hassner (2019)。 0.72
“Transferability and hardness of supervised 『監督の透明性と硬さ』 0.45
classification tasks”. In: International Conference on Computer Vision, pp. 分類タスク”。 In: International Conference on Computer Vision, pp。 0.72
1395–1405. 1395–1405. 0.71
Tversky, Amos (1977). Tversky, Amos (1977)。 0.81
“Features of similarity.” In: Psychological review 84.4, p. 327. 『類似性の特徴』:心理学的レビュー84.4, pp. 327。 0.74
Vinyals, Oriol, Charles Blundell, Tim Lillicrap, Daan Wierstra, et al (2016). Vinyals, Oriol, Charles Blundell, Tim Lillicrap, Daan Wierstra, et al (2016)。 0.83
“Matching networks for one shot learning”. ワンショット学習のためのネットワークのマッチング”。 0.81
In: Advances in Neural Information Processing Systems, pp. In: Advances in Neural Information Processing Systems, pp。 0.81
3630–3638. 3630–3638. 0.71
13 13 0.85
英語(論文から抽出)日本語訳スコア
Xue, Ya, Xuejun Liao, Lawrence Carin, and Balaji Krishnapuram (2007). Xue, Ya, Xuejun Liao, Lawrence Carin, Balaji Krishnapuram (2007)。 0.72
“Multi-task learning for classification with Dirichlet process priors”. “dirichletプロセス優先による分類のためのマルチタスク学習”。 0.80
In: Journal of Machine Learning Research 8.Jan, pp. 英語) Journal of Machine Learning Research 8.Jan, pp。 0.74
35–63. Yoon, Jaesik, Taesup Kim, Ousmane Dia, Sungwoong Kim, Yoshua Bengio, and Sungjin Ahn (2018). 35–63. Yoon, Jaesik, Taesup Kim, Ousmane Dia, Sungwoong Kim, Yoshua Bengio, Sungjin Ahn (2018) 0.71
“Bayesian Model-Agnostic Meta-Learning”. Bayesian Model-Agnostic Meta-Learning”。 0.63
In: Advances in Neural Information Processing Systems, pp. In: Advances in Neural Information Processing Systems, pp。 0.81
7343–7353. 7343–7353. 0.71
Zamir, Amir R, Alexander Sax, William Shen, Leonidas J Guibas, Jitendra Malik, and Silvio Savarese (2018). Zamir, Amir R, Alexander Sax, William Shen, Leonidas J Guibas, Jitendra Malik, Silvio Savarese (2018) 0.74
“Taskonomy: Disentangling task transfer learning”. 「タスクノミー:タスク転送学習の解消」。 0.66
In: Conference on Computer Vision and Pattern Recognition, pp. In: Conference on Computer Vision and Pattern Recognition, pp。 0.81
3712–3722. 3712–3722. 0.71
Zhang, Yu and Dit-Yan Yeung (2012). Zhang, Yu and Dit-Yan Yeung (2012)。 0.92
“A convex formulation for learning task relationships in 「タスク関係の学習のための凸式化」 0.73
multi-task learning”. マルチタスク学習”。 0.67
In: Conference on Uncertainty in Artificial Intelligence. 人工知能における不確実性に関する会議。 0.63
14 14 0.85
英語(論文から抽出)日本語訳スコア
A Calculation of each term in the ELBO ELBOにおける各項の計算 0.66
As described in section 3, the variational distributions for u, z and π are: 第3節で述べたように、u, z, π の変分分布は次のようになる。 0.61
q(uin; φ) = N(cid:16)uin; min, (sin)2 I(cid:17) q(uin; φ) = N(cid:16)uin; min, (sin)2 I(cid:17) 0.99
q(πi; γi) = Dirichlet (πi; γi) q(πi; γi) = dirichlet(πi; γi) 0.87
q(zin; rin) = Categorical (zin; rin) . q(zin; rin) = カテゴリー(zin; rin)。 0.63
(4) (10) (11) (4) (10) (11) 0.85
A.1 E q(ui;µui ,Σui )E A.1E q(ui;μui ,Σui )E 0.83
q(zi ,πi) [ln p(ui|zi, µ, Σ)] q(zi ,πi) [ln p(ui|zi, μ, σ)] 0.97
E q(zi,πi) [ln p(ui|zi, µ, Σ)] = E q(zi,πi) [ln p(ui|zi, μ, Σ)] = 0.92
= Hence: N Xn=1 Xn=1 = したがって N Xn=1 Xn=1 0.71
N K Xk=1 Xk=1 N K Xk=1 Xk=1 0.73
K rink ln p(uin|µk, Σk) K リンクln p(uin|μk, σk) 0.73
rink ln N (uin|µk, Σk). rink ln N (uin|μk, Σk)。 0.75
(16) E q(ui;µui ,Σui )E (16) E q(ui;μui ,Σui )E 0.89
q(zi ,πi) [ln p(ui|zi, µ, Σ)] = q(zi ,πi) [ln p(ui|zi, μ, Σ)] = 0.98
= N Xn=1 Xn=1 = N Xn=1 Xn=1 0.73
N K Xk=1 Xk=1 N K Xk=1 Xk=1 0.73
K A.2 E q(ui;µui ,Σui )E K A.2E q(ui;μui ,Σui )E 0.83
q(zi ,πi) [ln p(zi|πi)] q(zi ,πi) [ln p(zi|πi)] 0.97
rink E q(ui;µui ,Σui ) [ln N (ui|µk, Σk)] リンクE q(ui;μui ,Σui ) [ln N (ui|μk, Σk)] 0.65
| rink(cid:20)− | rink(cid:20)− 0.92
1 2 cross-entropy between 2 Gaussians 1 2 2つのガウスの間のクロスエントロピー 0.63
tr(Σ−1 k Σuin ) + ln N (µuin ; µk, Σk)(cid:21) . tr(Σ−1) k Σuin ) + ln N (μuin ; μk, Σk)(cid:21) である。 0.70
(17) {z } where: (17) {z } どこに? 0.77
E q(ui;µui ,Σui )E E q(ui;μui ,Σui )E 0.92
q(zi,πi) [ln p(zi|πi)] = q(zi,πi) [ln p(zi|πi)] = 0.98
rinkZ DirK(πi; γi) ln πik dπik rinkZ DirK(πi; γi) ln πik dπik 0.81
N K N K = Xn=1 Xk=1 Xn=1 Xk=1 ln ˜πik = ψ(γik) − ψ Xj=1  N K N K = Xn=1 Xk=1 Xn=1 Xk=1 ln >πik = シュ(γik) − シュ・Xj=1 0.81
K rink ln ˜πik, K 原題は『rink ln sπik』。 0.55
γij  . (18) (19) γ線。 (18) (19) 0.75
A.3 E q(ui;µui ,Σui )E A.3E q(ui;μui ,Σui )E 0.82
q(zi ,πi) [ln p(πi|α)] q(zi ,πi) [ln p(πi|α)] 0.92
E q(ui;µui ,Σui )E E q(ui;μui ,Σui )E 0.92
q(zi ,πi) [ln p(πi|α)] = EDir(πi;γi) ln Γ Xj=1  = ln Γ αj Xj=1 Xk=1  −  q(zi ,πi) [ln p(πi|α)] = edir(πi;γi) である。 0.59
αj  −" K Xk=1 ln Γ(αk)  + αj--"K Xk=1 ln >(αk)> > + 0.81
K K K ln Γ(αk) − (αk − 1) ln πik#  Xk=1 K K K ln γ(αk) − (αk − 1) ln πik# である。 0.85
(αk − 1) ln ˜πik. (αk − 1) ln >πik。 0.74
K (20) A.4 E K (20) A.4E 0.79
q(ui;µui ,Σui )E q(ui;μui ,Σui )E 0.98
q(zi ,πi) [ln q(zi|ri)] q(zi ,πi) [ln q(zi|ri)] 0.97
E q(ui;µui ,Σui )E E q(ui;μui ,Σui )E 0.92
q(zi,πi) [ln q(zi|ri)] = q(zi,πi) [ln q(zi|ri)] = 0.96
N Xn=1 K Xk=1 N Xn=1 K Xk=1 0.72
rink ln rink. リンク・リン・リンク 0.14
(21) 15 (21) 15 0.85
英語(論文から抽出)日本語訳スコア
A.5 E q(ui;µui ,Σui )E A.5E q(ui;μui ,Σui )E 0.82
q(zi ,πi) [ln q(πi|γi)] q(zi ,πi) [ln q(πi|γi)] 0.92
E q(ui;µui ,Σui )E E q(ui;μui ,Σui )E 0.92
q(zi,πi) [ln q(πi|γi)] = ln Γ Xj=1  q(zi,πi) [ln q(πi|γi)] = ln > Xj=1 > 0.87
K γij − K Xk=1 K γij- K Xk=1 0.71
[ln Γ(γik) − (γik − 1) ln ˜πik] . [ln >(γik) − (γik − 1) ln >πik] 0.89
(22) B Maximisation of the ELBO (22) B ELBOの最大化 0.78
Since the ELBO can be evaluated as shown in Appendix A, we can maximise the ELBO w.r.t. ELBO は Appendix A で示すように評価できるので、ELBO w.r.t を最大化することができる。 0.70
“taskspecific” variational parameters by taking derivative, setting it to zero and solving for the parameters of interest. 変数を0に設定し、興味のあるパラメータを解くことで、変動パラメータを"タスク特化"します。 0.59
B.1 Variational categorical distribution B.1 変分分類分布 0.76
Note that: K Xk=1 注意: K Xk=1 0.64
rink = 1. (23) rink = 1。 (23) 0.83
The derivative of Li with respect to rink can be expressed as: リンクに対するLiの微分は次のように表現できる。 0.54
∂L ∂rink = − ∂L ∂rink = − 0.78
1 2 tr(Σ−1 1 2 tr(Σ−1) 0.76
k Σuin ) + ln N (µuin ; µk, Σk) + ln ˜πik − ln rink − 1 + λ, k σuin ) + ln n (μuin ; μk, σk) + ln σπik − ln rink − 1 + λ。 0.90
(24) where: λ is the Lagrange multiplier and ln ˜πik is defined in Eq (19). (24) λ はラグランジュ乗数であり、ln >πik は Eq (19) で定義される。 0.81
Setting the derivative to zero and solving for rink give: 微分を 0 に設定し、rink の解法を以下に示す。 0.51
rink ∝ exp(cid:20)− rink - exp(cid:20)- 0.85
1 2 tr(Σ−1 1 2 tr(Σ−1) 0.76
k Σuin ) + ln N (µuin ; µk, Σk) + ln ˜πik(cid:21) . k Σuin ) + ln N (μuin ; μk, Σk) + ln >πik (cid:21) 。 0.77
(25) B.2 Variational Dirichlet distribution (25) b.2 変分ディリクレ分布 0.78
The lower-bound related to γik can be written as: γik に関連する下限は次のように書ける。 0.66
L = rink ln ˜πik + L = rink ln (複数形 rink lns) 0.59
K N K Xn=1 Xk=1 = − ln Γ Xj=1  = − ln Γ Xj=1  K N K Xn=1 Xk=1 = − ln > Xj=1 > = − ln > Xj=1 > 0.82
K γij  + γij  + K γij' (複数形 γij's) 0.61
Hence, the lower-bound related to γik is: したがって、γik に関連する下界は次のようになる。 0.55
[ln Γ(γik) − (γik − 1) ln ˜πik] [ln γ(γik) − (γik − 1) ln ]πik] 0.91
N rink! + ln Γ(γik). N リンク! + ln(γik)。 0.64
N K K K K K N K K K K K 0.85
K γij  + (αk − 1) ln ˜πik − ln Γ Xk=1 Xk=1 Xj=1  rink! K γijn ! (αk − 1) ln >πik − ln > Xk=1 Xk=1 Xj=1 > rink! 0.63
+ ln Γ(γik) ln ˜πik αk − γik + Xn=1 Xk=1  ψ(γik) − ψ  γij  αk − γik + Xk=1 Xn=1 Xj=1   γij  + ψ(γik) αk − γik + Xn=1 rinj  γij Xn=1 Xj=1  + ln Γ(γik)   ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ(γik) - ln γ である。
訳抜け防止モード: + ln >(γik ) ln >πik αk − γik + Xn=1 > γk=1 > γk > γik + Xk=1 Xj=1 > γij > + γ(γik ) αk − γik + Xn=1 rinj > Xn=1 Xj=1 > + ln >(γik )
0.86
rink! αj − γij + リンク! αj − γij + 0.58
K N N K L[γik] = − ln Γ Xj=1  − ψ Xj=1  K N N K L[γik] = − ln > Xj=1 > − > Xj=1 > 0.84
K 16 (26) (27) K 16 (26) (27) 0.85
英語(論文から抽出)日本語訳スコア
Taking derivative w.r.t. γik gives: 微分 w.r.t。 γikが示すのは 0.41
∂L ∂γik N K ∂l ∂γik N K 0.75
K γij = −ψ rink! K γijn = − リンク! 0.72
− ψ(γik)  + Ψ(γik) αk − γik + Xn=1 Xj=1  γij rinj  + ψ   − Ψ Xn=1 Xj=1 Xj=1 Xj=1  + ψ(γik)      rink! 1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 Xj=1 γik)!
訳抜け防止モード: αk − γik + xn=1 xj=1 である。 xn=1 xj=1 xj=1 xj=1 である。 ドイツ語) + ψ(γik ) - 英語: ψ(γik ) - 英語で「rink !
0.78
− Ψ = Ψ(γik) αk − γik + Xn=1 Xj=1 Xj=1   αk − γik + Xn=1 Xj=1 Xj=1 Xj=1 0.83
Xn=1 αj − γij + Xn=1 αj − γij + 0.71
αj − γij + αj − γij + 0.84
K K K K N N K K K K N N 0.85
N rinj , where Ψ(.) N リンジュ ここで ψ(.) である。 0.56
is the trigamma function. Setting the derivative to zero yields a maximum at: トリガンマ関数です 微分を 0 に設定すると、最大値は: 0.53
where: γik = αk + Nik, どこに? γik = αk + Nik, 0.73
Nik = N Xn=1 Nik = N Xn=1 0.76
rink. B.3 Maximum likelihood for the task-theme µk and Σk リンク B.3 タスクテーマ μk と Σk の最大確率 0.42
The terms in the objective function relating to µk can be written as: μk に関する目的関数の用語は、次のように書くことができる。 0.70
L[µk] = T Xi=1 L[μk] = T Xi=1 0.81
= − 1 2 N Xn=1 Xi=1 = − 1 2 N Xn=1 Xi=1 0.76
T rink ln N (µuin ; µk, Σk) T rink ln N (μuin ; μk, Σk) 0.89
N Xn=1 rink (µuin − µk)⊤ N Xn=1 rink (μuin − μk) 0.80
Σ−1 k (µuin − µk) Σ−1 k (μuin − μk) 0.75
Taking derivative w.r.t. µk gives: 微分 w.r.t。 μkは 0.48
Setting the derivative to zero yields a maximum at: 微分を 0 に設定すると、最大値は: 0.60
∂L ∂µk = T ∂L ∂μk = T 0.76
Xi=1 N Xn=1 Xi=1 N Xn=1 0.68
rinkΣ−1 k (µuin − µk). rinkΣ−1 k (μuin − μk)。 0.68
The terms in the objective function relating to Σk is given as: σk に関する目的関数の項は次のとおりである。 0.70
µk = PT i=1PN PT μk = PT i=1PN PT 0.76
n=1 rinkµuin i=1 Nik n=1rinkμuin i=1 nik 0.49
. (28) (29) . (28) (29) 0.85
(30) (31) (32) (30) (31) (32) 0.85
(33) 1 2 tr(Σ−1 (33) 1 2 tr(Σ−1) 0.79
k Σuin ) + ln N (µuin ; µk, Σk)(cid:21) k Σuin ) + ln N (μuin ; μk, Σk)(cid:21) 0.87
k Σuin ) + d ln(2π) + ln |Σk| + (µuin − µk)⊤ k Σuin ) + d ln(2π) + ln |Σk| + (μuin − μk) 0.90
Σ−1 k (µuin − µk)i . Σ−1 k (μuin − μk)i。 0.72
(34) L = T (34) L = T 0.85
Xi=1 = − 1 2 Xi=1 = − 1 2 0.76
N Xn=1 Xi=1 N Xn=1 Xi=1 0.68
T rink(cid:20)− Xn=1 T rink(cid:20)− Xn=1 0.80
N rinkhtr(Σ−1 N rinkhtr(Σ−1) 0.76
Taking derivative w.r.t. Σk gives: 微分 w.r.t。 Σk は 0.51
∂L ∂Σk = − ∂l ∂σk = − 0.68
= 1 2 T N 1 2 = 1 2 T N 1 2 0.85
rinkh−Σ−1 Xi=1 Xn=1 rinkhΣ−1 Xn=1 Xi=1 rinkh−Σ−1 Xi=1 Xn=1 rinkhΣ−1 Xn=1 Xi=1 0.37
N T k Σuin Σ−1 N T k Σuin Σ−1 0.79
k + Σ−1 k − Σ−1 k + Σ−1 k − Σ−1 0.78
k (µuin − µk) (µuin − µk)⊤ k (μuin − μk) (μuin − μk) 0.95
k Σuin − I + Σ−1 k Σuin − I + Σ−1 0.82
k (µuin − µk) (µuin − µk)⊤i Σ−1 k (μuin − μk) (μuin − μk) =i Σ−1 0.78
k . Σ−1 k i である。 Σ−1 私は 0.61
(35) 17 (35) 17 0.85
英語(論文から抽出)日本語訳スコア
γij    .   . γij   .   . 0.79
(36) (37) (38) (36) (37) (38) 0.85
(39) (40) (41) (39) (40) (41) 0.85
(42) (43) (44) (42) (43) (44) 0.85
(45) Setting the derivative to zero gives: (45) 微分を 0 に設定すると 0.65
Σk = PT 1 i=1 Nik Σk = PT 1 i=1Nik 0.75
T Xi=1 N Xn=1 T Xi=1 N Xn=1 0.72
rinkhΣuin + (µuin − µk) (µuin − µk)⊤i . リンクシュウイン + (μuin − μk) (μuin − μk) である。 0.75
B.4 Maximum likelihood for α B.4 α の最大確率 0.80
The lower-bound with terms relating to αk can be expressed as: αkに関する項の下位境界は次のように表現できる。 0.61
L = T K ln Γ Xj=1  L = T。 K シュルン=Xj=1 0.75
gk = ∂L ∂αk gk = ∂l ∂αk 0.71
Taking derivative w.r.t. αk gives: 微分 w.r.t。 αkは、 0.47
K αj Xk=1  − = T ψ Xj=1  K αj> Xk=1 > − = T > Xj=1 > 0.74
K T K K Xj=1 K T K K Xj=1 0.80
ln Γ(αk) (αk − 1) ψ(γik) − ψ Xi=1 Xk=1  +  γij  αj ψ(γik) − ψ  − ψ(αk) Xi=1  +   αj = T  − δ(k − k′)Ψ(αk) Ψ Xj=1  . ln γ(αk) - ln γ(αk) - ln γ(αk − 1)) - ψ - xi=1 xk=1 (αk) - ψ - xi=1 (k − k′) ψ(αk) - ψ - ψ(αk) - ψ - ψ(αk) - xi=1 (αk) - xi=1 (k − k′) ψ(αk)) - ψ - δ(k − k′) ψ(αk) - xj=1 である。
訳抜け防止モード: ln γ(αk) = ( αk − 1)) − ψ(γik ) − ψ xi=1 xk=1 ) である。 xi = 1 (γik ) − ψ(γik ) − ψ(αk ) − ψ(αk) xi=1 ) である。 xj = t(k − k′)ψ(αk): xj=1 である。
0.72
 Xj=1 K K  Xj=1 K K 0.78
T ∂2L ∂αk∂αk′ T ∂2L ∂αk∂αk' 0.56
The second derivative is, therefore, obtained as: したがって、第2の誘導体は次のとおりである。 0.64
The Hessian can be written in matrix form (minka2000estimating ) as: ヘッセンは、次のように行列形式(minka2000estimating )で書くことができる。 0.51
One Newton step is therefore: ニュートンの1つのステップは 0.66
where: H = Q + 11T a どこに? H = Q + 11T a 0.76
qkk′ = −T δ(k − k′)Ψ(αk) qkk′ = −T δ(k − k′)*(αk) 0.91
K a = T Ψ Xj=1  K a = T > Xj=1 > 0.82
αj  . α ← α − H−1g 通称αj。 α-α-H−1g 0.63
(H−1g)k = gk − b (H−1g)k = gk − b 0.82
qkk , b = PK 1/a +PK qkk , b = PK 1/a + PK 0.82
j=1 gj/qjj j=1 gj/qjj 0.50
j=1 1/qjj . 18 j=1/qjj . 18 0.74
                                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。