論文の概要、ライセンス

# (参考訳) Alpha-Divergence変分推論のための混合重み最適化 [全文訳有]

Mixture weights optimisation for Alpha-Divergence Variational Inference ( http://arxiv.org/abs/2106.05114v1 )

ライセンス: CC BY 4.0
Kam\'elia Daudel and Randal Douc(参考訳) 本稿では,変分推論のための$\alpha$-divergence最小化手法について述べる。 より正確には、混合成分パラメータの基本的な分布に関する情報なしで、任意の混合モデルの混合重量を最適化するアルゴリズムに興味がある。 すべての$\alpha \neq 1$に対して定義されるPower Descentはそのようなアルゴリズムであり、$\alpha <1$のときの最適混合重みへの収束の完全な証明を確立する。 $\alpha \to 1$ のとき、$\alpha$-divergence は広く使われているKullback-Leibler を復元するので、Power Descent を $\alpha = 1$ の場合に拡張し、エントロピックミラー Descent を得ることを示す。 これにより、パワー・ディクセントとエントロピック・ミラー・ディクセントの関連性を調べることができる: 1次近似は、$O(1/N)$収束率を証明する新しいアルゴリズムであるRenyi Descentを導入することができる。 最後に,偏りのないパワー降下とバイアス付きレーニー降下の挙動を数値的に比較し,一方のアルゴリズムの利点について考察する。

This paper focuses on $\alpha$-divergence minimisation methods for Variational Inference. More precisely, we are interested in algorithms optimising the mixture weights of any given mixture model, without any information on the underlying distribution of its mixture components parameters. The Power Descent, defined for all $\alpha \neq 1$, is one such algorithm and we establish in our work the full proof of its convergence towards the optimal mixture weights when $\alpha <1$. Since the $\alpha$-divergence recovers the widely-used forward Kullback-Leibler when $\alpha \to 1$, we then extend the Power Descent to the case $\alpha = 1$ and show that we obtain an Entropic Mirror Descent. This leads us to investigate the link between Power Descent and Entropic Mirror Descent: first-order approximations allow us to introduce the Renyi Descent, a novel algorithm for which we prove an $O(1/N)$ convergence rate. Lastly, we compare numerically the behavior of the unbiased Power Descent and of the biased Renyi Descent and we discuss the potential advantages of one algorithm over the other.
公開日: Wed, 9 Jun 2021 14:47:05 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] T S h t a m 9 ] T S h t a m 0.85
. [ 1 v 4 1 1 5 0 . [ 1 v 4 1 1 5 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
MIXTURE WEIGHTS OPTIMISATION FOR ALPHA-DIVERGENCE VARIATIONAL INFERENCE 混合重みの最適化 alpha-divergence variational inference 0.45
Kamélia Daudel LTCI, Télécom Paris Kamélia Daudel LTCI, Télécom Paris 0.85
Institut Polytechnique de Paris, France kamelia.daudel@gmail .com Institut Polytechnique de Paris, France kamelia.daudel@gmail .com 0.84
Randal Douc SAMOVAR, Télécom SudParis ランダル・ドゥーク SAMOVAR, Télécom SudParis 0.62
Institut Polytechnique de Paris, France フランス・パリ工科大学 0.56
randal.douc@telecom- sudparis.eu randal.douc@telecom- sudparis.eu 0.47
ABSTRACT This paper focuses on gradient-based Variational Inference for α-divergence minimisation. ABSTRACT 本稿では,α偏差最小化のための勾配に基づく変分推論について述べる。 0.68
More precisely, we are interested in studying algorithms making it possible to optimise the mixture weights of any given mixture model, without any information on the underlying distribution of its mixture components parameters. より正確には、混合成分パラメータの基盤となる分布に関する情報なしで、任意の混合モデルの混合重量を最適化できるようにするアルゴリズムの研究に興味がある。 0.85
The Power Descent is one such algorithm and we establish in our work its convergence towards the optimal mixture weights when α < 1 under alleviated assumptions. パワー Descent はそのようなアルゴリズムの一つであり、α < 1 が緩和された仮定の下で最適混合重みへの収束を確立する。 0.75
We also investigate the link between Power Descent and Entropic Mirror Descent: this allows us to introduce the Renyi Descent, for which we prove an O(1/N ) convergence rate. また、パワー・ディクセントとエントロピック・ミラー・ディクセント(エントロピック・ミラー・ディクセント)の関連についても検討し、これにより、O(1/N)収束率を証明できるレニイ・ディクセントを導入することができる。
訳抜け防止モード: また, パワー降下とエントロピーミラー降下の関係についても検討した。 これは, o(1/n) 収束率を証明したrenyi降下を導入することを可能にする。
0.67
We then provide some numerical experiments to illustrate the behavior of these two algorithms in practice. 次に,これら2つのアルゴリズムの挙動を実演する数値実験を行った。 0.83
1 Introduction Bayesian Inference involves being able to compute or sample from the posterior density. 1 はじめに ベイズ推定は、後方密度から計算またはサンプルすることができる。 0.69
For many useful models, the posterior density can only be evaluated up to a normalisation constant and we must resort to approximation methods. 多くの有用なモデルにおいて、後続密度は正規化定数までしか評価できず、近似法に頼らなければならない。 0.68
One major category of approximation methods is Variational Inference, a wide class of optimisation methods which introduce a simpler density family Q and use it to approximate the posterior density (see for example Variational Bayes [1, 2] and Stochastic Variational Inference [3]). 近似法の主要なカテゴリの1つは変分推論であり、より単純な密度族 q を導入し、後密度を近似するためにそれを使用する幅広い最適化法である(例えば変分ベイズ [1, 2] や確率変分推論 [3] を参照)。
訳抜け防止モード: 近似法の1つの主要なカテゴリは変分推論であり、より単純な密度ファミリーQを導入する最適化手法の幅広いクラスである。 後部密度を近似するためにそれを使います(例えば、変分ベイズ [ 1, 2 ]) and Stochastic Variational Inference [3 ] )
0.87
The crux of these methods consists in being able to find the best approximation of the posterior density among the family Q in the sense of a certain divergence, most typically the Kullback-Leibler divergence. これらの方法のくちばしは、ある発散という意味では族 Q の後方密度の最良の近似を見出すことができ、最も一般的にはクルバック・リーブラー発散である。
訳抜け防止モード: これらの方法のくちばしは、ある発散の意味において、族 Q の後方密度の最良の近似を見つけることができることである。 ほとんどの場合、Kullback - Leibler divergence である。
0.62
However, The Kullback-Leibler divergence is known to have some undesirable properties (e.g posterior overestimation/under estimation [4]) and as a consequence, the α-divergence [5, 6] and Renyi’s αdivergence [7, 8] have gained a lot of attention recently as a more general alternative [9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]. しかし、クルバック・リーバーの発散はいくつかの望ましくない性質(例えば、後続の過大評価/下限推定 [4])を持つことで知られており、その結果、α-発散 [5, 6] と Renyi の α 発散 [7, 8] は、より一般的な代替 (9, 10, 12, 12, 12, 12, 14, 15, 15, 16, 17, 18, 19) として最近注目を集めている。 0.74
Noticeably, [17] introduced the (α, Γ)-descent, a general family of gradient-based algorithms that are able to optimise the mixture weights of mixture models by α-divergence minimisation, without any information on the underlying distribution of its mixture components parameters. 注目すべきは、[17] が(α, )-発散(descent)を導入したことだ。これは勾配に基づくアルゴリズムの一般的なファミリーで、混合モデルの混合重量をα-発散最小化によって最適化することができる。
訳抜け防止モード: 注目すべきことに、[17]は (α, γ)-descent を導入した。 勾配型アルゴリズムの一般ファミリー α-発散最小化による混合モデルの混合重みの最適化 それらの混合コンポーネントのパラメータの基盤となる分布に関する情報がなければ。
0.80
The benefit of these types of algorithms is that they allow, in an Sequential Monte Carlo fashion [20], to select the mixture components according to their overall importance in the set of component parameters. これらのタイプのアルゴリズムの利点は、連続モンテカルロ方式[20]で、成分パラメータの集合におけるそれらの全体的な重要性に応じて混合成分を選択することができることである。 0.85
From there, one is able to optimise the weights and the components parameters alternatively [17]. そこから、重みとコンポーネントパラメータを[17]に最適化することができる。 0.66
The (α, Γ)-descent framework recovers the Entropic Mirror Descent algorithm (corresponding to Γ(v) = e−ηv with η > 0) and includes the Power Descent, an algorithm defined for all α ∈ R \ {1} and all η > 0 that sets Γ(v) = [(α − 1)v + 1]η/(1−α). α, γ)-descent framework は、(γ(v) = e−ηv と η > 0 に対応する)エントロピーミラー降下アルゴリズムを復活させ、すべての α ∈ r \ {1} と γ(v) = [(α − 1)v + 1]η/(1−α) を定めるすべての η > 0 に対して定義されるパワー降下を含む。 0.88
Although these two algorithms are linked to one another from a theoretical perspective through the (α, Γ)-descent framework, numerical experiments in [17] これらの2つのアルゴリズムは (α, γ)-descent framework を通じて理論的観点から相互にリンクされるが, [17] における数値実験 0.78
英語(論文から抽出)日本語訳スコア
showed that the Power Descent outperforms the Entropic Mirror Descent when α < 1 as the dimension increases. パワー降下は、α < 1 の次元が増加するとき、エントロピーミラー降下よりも優れることを示した。 0.68
Nonetheless, the global convergence of the Power Descent algorithm when α < 1, as stated in [17], is subjected to the condition that the limit exists. それでも、[17] に記述された α < 1 のとき、パワー降下アルゴリズムの大域収束は極限が存在するという条件に従わなければならない。 0.81
Furthermore, even though the convergence towards the global optimum is derived, there is no convergence rate available for the Power Descent when α < 1. さらに、大域的最適点への収束は導かれるが、α < 1 のときにパワー・ディクセントに対して収束速度は得られない。 0.73
While there is no general rule yet on how to select the value of α in practice, the case α < 1 has the advantage that it enforces a mass-covering property, as opposed to the mode-seeking property exhibited when α (cid:62) 1 ([4] and [17]) and which often may lead to posterior variance underestimation. α < 1 の場合、α (cid:62) 1 ([4] と [17]) で示されるモード参照性とは対照的に質量被覆性が強制されるという利点があるが、α < 1 の場合では、α (cid:62) 1 ([4] と [17]) が示され、しばしば後方分散の過大評価につながることがある。
訳抜け防止モード: 実際に α の値を選択する方法に関する一般的な規則はまだ存在しないが。 α < 1 の場合、質量を強制する利点がある -モードとは対照的に、財産を被覆する α (cid:62 ) 1 ( [ 4 ] と、17)は、しばしば後続の分散過小評価につながる可能性がある。
0.78
We are thus interested in studying Variational Inference methods for optimising the mixture weights of mixture models when α < 1. したがって、α < 1 のとき混合モデルの混合重みを最適化するための変分推論法の研究に興味がある。
訳抜け防止モード: ですから私たちは α < 1 のときの混合モデルの混合重量を最適化するための変分推論法の研究
0.84
After recalling the basics of the Power Descent algorithm in Section 2, we make the following contributions in the paper: 第2節でパワー降下アルゴリズムの基礎を想起した後、以下のように論文に寄稿する。 0.67
• In Section 3, we derive the full convergence proof of the Power Descent algorithm towards the optimal mixture weights when α < 1 (Theorem 2). • 第3節では、α < 1 (theorem 2) のとき、パワー降下アルゴリズムの最適混合重みへの完全収束証明を導出する。 0.80
• Since the α-divergence becomes the traditional forward Kullback-Leibler when α → 1, we first bridge in Section 4 the gap between the cases α < 1 and α > 1 of the Power Descent: we obtain that the Power Descent recovers an Entropic Mirror Descent performing forward Kullback-Leibler minimisation (Proposition 1). • α-ダイバージェンスは、α → 1 のとき、伝統的な前方カルバック・リーバーとなるので、第4節で、パワー降下のケース α < 1 と α > 1 の間のギャップを橋渡しする: パワー降下は、前方カルバック・リーバー最小化(proposition 1)を行うエントロピーミラー降下を回復する。 0.75
We then keep on investigating the connections between the Power Descent and the Entropic Mirror Descent by considering first-order approximations. 次に, 1次近似を考慮し, パワー降下とエントロピーミラー降下の関係について検討を続ける。 0.65
In doing so, we are able to go beyond the (α, Γ)-descent framework and to introduce an algorithm closely-related to the Power Descent that we call the Renyi Descent and that is proved in Theorem 3 to converge at an O(1/N ) rate towards its optimum for all α ∈ R. • Finally, we run some numerical experiments in Section 5 to compare the behavior of the Power Descent and the Renyi Descent altogether, before discussing the potential benefits of one approach over the other. これにより、(α, γ)-descent フレームワークを越えて、renyi 降下と呼ばれるパワー降下と密接に関連したアルゴリズムを導入することができ、定理 3 において、すべての α ∈ r に対して最適な o(1/n ) 速度で収束することが証明される • 最後に、パワー降下と renyi 降下の挙動を全て比較するために、第5 節でいくつかの数値実験を行い、一方のアプローチの潜在的な利点について議論する。 0.75
2 Background We start by introducing some notation. 2 背景 まずは表記法を導入することから始めます。 0.52
Let (Y,Y, ν) be a measured space, where ν is a σ-finite measure on (Y,Y). y,y, ν) を測度空間とし、ν を (y,y) 上の σ-有限測度とする。 0.78
Assume that we have access to some observed variables D generated from a probabilistic model p(D|y) parameterised by a hidden random variable y ∈ Y that is drawn from a certain prior p0(y). 確率モデル p(D|y) から生成されるいくつかの観測変数 D へのアクセスが、ある前の p0(y) から引き出される隠れランダム変数 y ∈ Y によってパラメータ化されることを仮定する。 0.79
The posterior density of the latent variable y given the data D is then given by: データDが与えられた潜伏変数yの後方密度は、次のように与えられる。 0.75
p(y|D) = where the normalisation constant p(D) =(cid:82) K : (θ, A) (cid:55)→(cid:82) p(y|D) = 正規化定数 p(d) =(cid:82) k : (θ, a) (cid:55)→(cid:82) 0.88
p(y, D) p(D) Y p0(y)p(D|y)ν(dy) is called the marginal likelihood or model evidence and is oftentimes unknown. p(y, d) p(d) y p0(y)p(d|y)ν(dy) は限界確率またはモデル証拠と呼ばれ、しばしば未知である。 0.87
To approximate the posterior density, the Power Descent considers a variational family Q that is large enough to contain mixture models and that we redefine now: letting (T,T ) be a measurable space, A k(θ, y)ν(dy) be a Markov transition kernel on T × Y with kernel density k defined on T × Y, the Power Descent considers the following approximating family 後続密度を近似するために、Power Descent は混合モデルを含むのに十分な大きさの変分族 Q を考える: (T,T ) を可測空間とし、A k(θ, y)ν(dy) を T × Y 上のマルコフ遷移核とし、T × Y 上の核密度 k とすると、Power Descent は以下の近似族を考える。 0.81
p(D) = p0(y)p(D|y) p(D) = p0(y)p(D|y) 0.86
, (cid:26) , (cid:26) 0.82
(cid:90) y (cid:55)→ (cid:90) y (cid:55)→ 0.83
µ(dθ)k(θ, y) : µ ∈ M μ(dθ)k(θ, y) : μ ∈ M 0.91
, (cid:27) , (cid:27) 0.82
where M is a convenient subset of M1(T), the set of probability measures on (T,T ). M が M1(T) の便利な部分集合であるとき、(T,T) 上の確率測度の集合である。 0.77
This choice of approximating family extends the typical parametric family commonly-used in Variational Inference since it amounts to putting a prior over the parameter θ (in the form of a measure) and does describe the class of mixture models when µ is a weighted sum of Dirac measures. この近似族の選択は、変分推論で一般的に使用される典型的なパラメトリック族を拡張し、パラメータ θ に先行する(測度という形で)ので、μ がダイラック測度の重み付き和であるときの混合モデルのクラスを記述する。 0.85
T 2 T 2 0.85
英語(論文から抽出)日本語訳スコア
p(·|D) with respect to ν and for all µ ∈ M1(T), for all y ∈ Y, denote µk(y) = (cid:82) ν およびすべての μ ∈ M1(T) に対して、すべての y ∈ Y に対して μk(y) = (cid:82) を表す。 0.86
Problem statement Denote by P the probability measure on (Y,Y) with corresponding density T µ(dθ)k(θ, y). 問題文は p で対応する密度 t μ(dθ)k(θ, y) を持つ (y,y) 上の確率測度を表す。 0.84
Furthermore, given α ∈ R, let fα be the convex function on (0, +∞) defined by f0(u) = u−1−log(u), α(α−1) [uα − 1 − α(u − 1)] for all α ∈ R \ {0, 1}. さらに、α ∈ R が与えられたとき、fα をすべての α ∈ R \ {0, 1} に対して f0(u) = u−1−log(u), α(α−1) [uα − 1 − α(u − 1)] で定義される (0, +∞) 上の凸函数とする。 0.86
Then, the f1(u) = 1 − u + u log(u) and fα(u) = 1 α-divergence between µK and P (extended by continuity to the cases α = 0 and α = 1 as for example (cid:90) done in [21]) is given by すると、f1(u) = 1 − u + u log(u) と fα(u) = 1 α の μK と P の分割(例えば [21] で行われるような α = 0 と α = 1 の連続性によって延長される)が与えられる。 0.86
(cid:18) µk(y) (cid:18)μk(y) 0.83
(cid:19) Dα(µK||P) = (cid:19) Dα(μK||P) = 0.71
fα p(y|D) p(y|D)ν(dy) , fα p(y|D) p(y|D)ν(dy) , 0.87
and the goal of the Power Descent is to find そしてPower Descentの目標は 0.42
Y (1) More generally, letting p be any measurable positive function on (Y,Y), the Power Descent aims at solving Y 1)より一般的には、p を (Y,Y) 上の測定可能な正の関数とし、パワーダイスンが解決することを目的とする。
訳抜け防止モード: Y (1)より一般的には p を (Y, Y ) 上の測度可能な正の関数とする Power Descentは問題を解決することを目指す
0.79
arginf µ∈MDα(µK||P) . arginf μ・MDα(μK||P)。 0.48
(2) where for all µ ∈ M1(T), Ψα(µ; p) = (cid:82) (2) すべての μ ∈ m1(t) に対して ψα(μ; p) = (cid:82) 0.85
arginf µ∈MΨα(µ; p) , arginf μψmψα(μ; p) , 0.72
Y fα (µk(y)/p(y)) p(y)ν(dy). Y fα (μk(y)/p(y)) p(y)ν(dy)。 0.90
The Variational Inference optimisation problem (1) can then be seen as an instance of (2) that is equivalent to optimising Ψα(µ; p) with p(y) = p(y, D) (see Appendix A.1). 変分推論最適化問題(1)は、p(y) = p(y, d) で ψα(μ; p) を最適化することと同値である(2) の例と見なすことができる(付録 a.1)。 0.84
In the following, the dependency on p in Ψα may be dropped throughout the paper for notational ease when no ambiguity occurs and we now present the Power Descent algorithm. 以下の例では、あいまいさが起こらないとき、表記の容易さのために、α における p への依存を紙全体に落とし、現在ではパワー・ドネッセント・アルゴリズムを提示する。 0.54
The Power Descent algorithm. Power Descentアルゴリズム。 0.62
The optimisation problem (2) can be solved for all α ∈ R \ {1} by using the Power Descent algorithm introduced in [17] : given an initial measure µ1 ∈ M1(T) such that Ψα(µ1) < ∞, α ∈ R \ {1}, η > 0 and κ such that (α − 1)κ (cid:62) 0, the Power descent algorithm is an iterative scheme which builds the sequence of probability measures (µn)n∈N(cid:63) 最適化問題(2)は、[17] で導入されたパワー降下アルゴリズムを用いて、すべての α ∈ r \ {1} に対して解くことができる: ψα(μ1) < ∞, α ∈ r \ {1}, η > 0, κ で (α − 1)κ (cid:62) 0 となるような初期測度 μ1 ∈ m1(t) が与えられたとき、パワー降下アルゴリズムは確率測度 (μn)nhtmln(cid:63) のシーケンスを構築する反復スキームである。 0.90
(3) where for all µ ∈ M1(T), the one-step transition µ (cid:55)→ Iα(µ) is given by Algorithm 1 and where for all v ∈ Domα, Γ(v) = [(α − 1)v + 1]η/(1−α) [and Domα denotes an interval of R such that for all θ ∈ T, all µ ∈ M1(T), bµ,α(θ) + κ and µ(bµ,α) + κ ∈ Domα]. (3) 全ての μ ∈ M1(T) に対し、一段階の遷移 μ (cid:55) → Iα(μ) はアルゴリズム 1 で与えられ、すべての v ∈ Domα に対して、(v) = [(α − 1)v + 1]η/(1−α) [および Domα は R の区間を表し、すべての θ ∈ T に対して、すべての μ ∈ M1(T)、bμ,α(θ) + κ と μ(bμ,α) + κ ∈ Domα] が成立する。 0.92
Algorithm 1: Power descent one-step transition (Γ(v) = [(α − 1)v + 1]η/(1−α)) アルゴリズム1:パワー降下ワンステップ遷移(γ(v) = [(α − 1)v + 1]η/(1−α)) 0.82
µn+1 = Iα(µn) , μn+1 = Iα(μn) , 0.72
n ∈ N(cid:63) , n ∈ N(cid:63) , 0.94
1. Expectation step : bµ,α(θ) = 1. 期待段階:bμ,α(θ) = 0.82
k(θ, y)f(cid:48) k(θ, y)f(cid:48) 1.00
α ν(dy) (cid:90) α ν(dy) (cid:90) 0.83
Y (cid:18) µk(y) Y (cid:18)μk(y) 0.84
(cid:19) p(y) (cid:19) p(y) 0.82
2. Iteration step : Iα(µ)(dθ) = 2. 反復ステップ: Iα(μ)(dθ) = 0.87
µ(dθ) · Γ(bµ,α(θ) + κ) μ(dθ)·γ(bμ,α(θ) + κ) 0.92
µ(Γ(bµ,α + κ)) μ(γ(bμ,α + κ)) 0.87
In this algorithm, bµ,α can be understood as the gradient of Ψα. このアルゴリズムでは、bμ,α は >α の勾配と解釈できる。 0.72
Algorithm 1 then consists in applying the transform function Γ to the translated gradient bµ,α + κ and projecting back onto the space of probability measures. アルゴリズム1は、変換関数 γ を変換された勾配 bμ,α + κ に適用し、確率測度の空間に投影する。 0.67
A remarkable property of the Power Descent algorithm, which has been proven in [17] (it is a special case of [17, Theorem 1] with Γ(v) = [(α − 1)v + 1]η/(1−α)), is that under (A1) as defined below 17] ( γ(v) = [(α − 1)v + 1]η/(1−α) を持つ [17, theorem 1] の特別な場合である) で証明されたパワー降下アルゴリズムの注目すべき性質は、下記の (a1) の下で (a1) が成り立つことである。 0.91
(A1) The density kernel k on T × Y, the function p on Y and the σ-finite measure ν on (A1) T × Y 上の密度核 k, Y 上の函数 p, σ-有限測度ν 0.79
(Y,Y) satisfy, for all (θ, y) ∈ T × Y, k(θ, y) > 0, p(y) > 0 and(cid:82) (Y,Y) はすべての (θ, y) ∈ T × Y, k(θ, y) > 0, p(y) > 0 および (cid:82) を満たす。 0.91
Y p(y)ν(dy) < ∞. y p(y)ν(dy) < ∞ である。 0.90
the Power Descent ensures a monotonic decrease in the α-divergence at each step for all η ∈ (0, 1] (this result is recalled in Theorem 4 of Appendix A.2 for the sake of completeness). パワー降下は、すべての η ∈ (0, 1] に対する各ステップにおける α-ダイバージェンスの単調な減少を保証する(この結果は完全性のために付録 a.2 の定理 4 で回想される)。 0.78
Under the additional 3 追加で 3 0.60
英語(論文から抽出)日本語訳スコア
assumptions that κ > 0 and κ > 0 と仮定する 0.70
sup θ∈T,µ∈M1(T) sup θ・μ・M1(T) 0.73
|bµ,α| < ∞ and Ψα(µ1) < ∞ , bμ,α| < ∞ と ψα(μ1) < ∞ である。 0.75
(4) the Power Descent is also known to converge towards its optimal value at an O(1/N ) rate when α > 1 [17, Theorem 3]. (4) α > 1 [17, Theorem 3] のときに O(1/N ) レートで最適値に向かって収束することが知られている。 0.83
On the other hand, when α < 1, the convergence towards the optimum as written in [17] holds under different assumptions including 一方、α < 1 の場合、[17] に書かれる最適点への収束は異なる仮定の下で成り立つ。 0.65
(A2) (i) T is a compact metric space and T is the associated Borel σ-field; (ii) for all y ∈ Y, θ (cid:55)→ k(θ, y) is continuous; (A2) i) t はコンパクト距離空間であり、t は対応するボレル σ-場であり、(ii) すべての y ∈ y, θ (cid:55)→ k(θ, y) は連続である。
訳抜け防止モード: (A2) ( i ) T はコンパクトな計量空間であり、 T はボレル σ-体である。 (ii ) for all y ∈ Y , θ ( cid:55) → k(θ , y ) is continuous ;
0.91
(iii) we have(cid:82) If α = 0, assume in addition that(cid:82) (iii) (cid:82) α = 0 ならば、(cid:82) 0.70
Y supθ∈T k(θ, y) × supθ(cid:48)∈T y supθajaxt k(θ, y) × supθ(cid:48)servlett 0.63
Y supθ∈T y supθ الt である。 0.25
(cid:16) k(θ(cid:48),y) (cid:12)(cid:12)(cid :12)log (cid:16) k(θ(cid:48),y) (cid:12)(cid:12)(cid :12)log 0.85
p(y) (cid:17)α−1 (cid:16) k(θ,y) p(y) (cid:17)α−1(cid:16)k(θ,y) 0.83
p(y) ν(dy) < ∞. p(y) ν(dy) < ∞ である。 0.86
(cid:17)(cid:12)(cid :12)(cid:12)p(y)ν(dy) < ∞. (cid:17)(cid:12)(cid :12)(cid:12)p(y)ν(dy) < ∞。 0.86
so that [17, Theorem 4], that is recalled below under the form of Theorem 1, states the convergence of the Power Descent algorithm towards the global optimum. 従って、[17, theorem 4] は定理 1 の形で回想され、大域的最適へのパワー降下アルゴリズムの収束を述べる。
訳抜け防止モード: したがって、[17, Theorem 4 ] は Theorem 1 の形で下記の形でリコールされる。 Power Descent アルゴリズムのグローバルな最適性への収束を述べる。
0.81
Theorem 1 ([17, Theorem 4]). Theorem 1 ([17, Theorem 4])。 0.58
Assume (A1) and (A2). (A1)、(A2)。 0.70
Let α < 1 and let κ (cid:54) 0. α < 1 とし κ (cid:54) 0 とする。 0.84
Then, for all µ ∈ M1(T), Ψα(µ) < ∞ and any η > 0 satisfies 0 < µ(Γ(bµ,α + κ)) < ∞. すると、すべての μ ∈ m1(t) に対して ψα(μ) < ∞ と任意の η > 0 は 0 < μ(γ(bμ,α + κ)) < ∞ を満たす。 0.90
Further assume that η ∈ (0, 1] and that there exist µ1, µ(cid:63) ∈ M1(T) such that the (well-defined) sequence (µn)n∈N(cid:63) defined by (3) weakly converges to µ(cid:63) as n → ∞. さらに η ∈ (0, 1] と μ1, μ(cid:63) ∈ M1(T) が存在して (3) で定義される ( well-defined) 列 (μn)n∂N(cid:63) が n → ∞ として μ(cid:63) に弱収束することを仮定する。 0.84
Finally, denote by M1,µ1(T) the set of probability measures dominated by µ1. 最後に、M1,μ1(T) は μ1 に支配される確率測度の集合を表す。 0.76
Then the following assertions hold すると次の主張が成り立つ。 0.52
(i) (Ψα(µn))n∈N(cid:63) is nonincreasing, (ii) µ(cid:63) is a fixed point of Iα, (iii) Ψα(µ(cid:63)) = inf ζ∈M1,µ1 (T) Ψα(ζ). (i) (ψα(μn))nhtmln(cid:63) は非開度であり、 (ii) μ(cid:63) は iα の不動点であり、 (iii) ψα(μ(cid:63)) = inf である。 0.80
The above result assumes there must exist µ1, µ(cid:63) ∈ M1(T) such that the sequence (µn)n∈N(cid:63) defined by (3) weakly converges to µ(cid:63) as n → ∞, that is it assumes the limit already exists. 上記の結果から、 μ1, μ(cid:63) ∈ m1(t) が存在して、(3) によって定義される列 (μn)nhtmln(cid:63) が弱収束して μ(cid:63) に n → ∞ と仮定される。 0.82
Our first contribution consists in showing that this assumption can be alleviated when µ is chosen a weighted sum of Dirac measures, that is when we seek to perform mixture weights optimisation by α-divergence minimisation. 最初の貢献は、μ がディラック測度の重み付き和に選択されたときに、この仮定を緩和できることを示すこと、すなわち、α-ディバージェンス最小化によって混合重み付けを最適化しようとするときである。 0.62
3 Convergence of the Power Descent algorithm in the mixture case 3 混合ケースにおけるパワー降下アルゴリズムの収束 0.74
Before we state our convergence result, let us first make two comments on the assumptions from Theorem 1 that shall be retained in our upcoming convergence result. 収束結果を示す前に、まず、次の収束結果に保持される定理1からの仮定について2つのコメントをしましょう。 0.62
A first comment is that (A1) is mild since the assumption that p(y) > 0 for all y ∈ Y can be discarded and is kept for convenience [17, Remark 4]. 最初のコメントは、(A1) は、すべての y ∈ Y に対する p(y) > 0 が破棄され、便利な[17, Remark 4] として保たれるという仮定から穏やかである。 0.80
A second comment is that (A2) is also mild and covers (4) as it amounts to assuming that bµ,α(θ) and Ψα(µ) are uniformly bounded with respect to µ and θ. 第2のコメントは、(a2) もまたマイルドであり、(a2) は μ と θ に対して bμ,α(θ) と ψα(μ) が一様に有界であると仮定して、(4) をカバーする。
訳抜け防止モード: 2つめのコメントは (a2 ) もまた穏やかであるということです 被覆 (4 ) は bμ,α(θ ) と ψα(μ ) が μ と θ に対して一様有界であると仮定する。
0.80
To see this, we give below an example for which (A2) is satisfied. これを見るために、(a2) が満足できる例を以下に示す。 0.75
Example 1. Consider the case Y = Rd with α ∈ [0, 1). 例1。 α ∈ [0, 1) の Y = Rd の場合を考える。 0.74
Let r > 0 and let T = B(0, r) ⊂ Rd. r > 0 とし、T = B(0, r) を Rd とする。 0.83
Furtheremore, let Kh be a Gaussian transition kernel with bandwidth h and denote by kh its associated kernel density. さらに、kh をバンド幅 h のガウス遷移核とし、kh と関連する核密度で表す。 0.59
Finally, let p be a mixture density of two d-dimensional Gaussian distributions multiplied by a positive constant c such that p(y) = c × [0.5N (y; θ(cid:63) 2, Id)] for all y ∈ Y where 1, θ(cid:63) θ(cid:63) 最後に、p をすべての y ∈ Y に対して p(y) = c × [0.5N (y; θ(cid:63) 2, Id)] となるような正の定数 c で乗算した 2 つの d-次元ガウス分布の混合密度とする。 0.82
1, Id) + 0.5N (y; θ(cid:63) 2 ∈ T and Id is the identity matrix. 1, id) + 0.5n (y; θ(cid:63) 2 ∈ t と id は恒等行列である。 0.79
Then, (A2) holds (see Appendix B.1). すると (A2) が成り立つ(Appendix B.1 を参照)。 0.67
Next, we introduce some notation that are specific to the case of mixture models we aim at studying in this section. 次に,本項で研究する混合モデルの場合に特有な表記法を紹介する。
訳抜け防止モード: 次に記法を紹介します 我々が本節で研究することを目的とした混合モデルの場合に特有である。
0.70
Given J ∈ N(cid:63), we introduce the simplex of RJ: J ∈ N(cid:63) が与えられたとき、RJ の単純性を導入する。 0.63
λ = (λ1, . λ = (λ1, . 0.92
. . , λJ ) ∈ RJ : ∀j ∈ {1, . . . , λJ ) ∈ RJ : .j ∈ {1, . 0.89
. . , J} , λj (cid:62) 0 and . . , J} , λj (cid:62) 0 および 0.87
J(cid:88) j=1 j(cid:88) j=1 0.68
 SJ = λj = 1  SJ = λj = 1 0.88
4 4 0.85
英語(論文から抽出)日本語訳スコア
and we also define S + S + も定義します 0.72
J = {λ ∈ SJ : ∀j ∈ {1, . J = {λ ∈ SJ : .j ∈ {1, . 0.87
. . , J} , λj > 0}. . . , J , λj > 0 である。 0.84
We let Θ = (θ1, . は (θ1, ) とする。 0.64
. . , θJ ) ∈ TJ be . . , θJ ) ∈ TJ be 0.89
fixed and for all λ ∈ SJ, we define µλ,Θ ∈ M1(T) by µλ,Θ =(cid:80)J Consequently, µλ,Θk(y) =(cid:80)J be expressed as µn = (cid:80)J すべての λ ∈ sj に対して、μλ,θ ∈ m1(t) を μλ,θ =(cid:80)j で定義すると、μλ,θk(y) =(cid:80)j は μn = (cid:80)j で表される。 0.82
j=1 λjk(θj, y) corresponds to a mixture model and if we let (µn)n∈N(cid:63) be defined by µ1 = µλ,Θ and (3), an immediate induction yields that for every n ∈ N(cid:63), µn can j=1 λj,nδθj where λn = (λ1,n, . j=1 λjk(θj, y) は混合モデルに対応し、(μn)n~N(cid:63) を μ1 = μλ,\ and (3) で定義させると、すべての n ∈ N(cid:63) に対して μn は j=1 λj,nδθj となり、λn = (λ1,n, ) となる。 0.80
. . , λJ,n) ∈ SJ satisfies the initialisation . . , λJ,n) ∈ SJ は初期化を満たす 0.85
j=1 λjδθj . j=1 λjδθj。 0.47
λ1 = λ and the update formula: λ1 = λ と更新公式: 0.81
λn+1 = I mixt λn+1 = Imixt 0.80
(λn) , n ∈ N(cid:63) , (λn) , n ∈ N(cid:63) , 0.94
(5) α where for all λ ∈ SJ, (5) α すべての λ ∈ SJ に対して、 0.82
(cid:32) I mixt (cid:32) 私は混ざり合う 0.71
α (λ) := (cid:80)J α (λ) := (cid:80)j 0.84
λjΓ(bµλ ,Θ,α(θj) + κ) (cid:96)=1 λ(cid:96)Γ(bµλ ,Θ,α(θ(cid:96)) + κ) λj(bμλ ,\,α(θj) + κ) (cid:96)=1 λ(cid:96)(bμλ ,\,α(θ(cid:96)) + κ) 0.97
(cid:33) 1(cid:54)j(cid:54)J (cid:33) 1(cid:54)j(cid:54)J 0.81
with Γ(v) = [(α − 1)v + 1] where µ is a sum of Dirac measures, which gives (A3) below. γ(v) = [(α − 1)v + 1] ここで μ はディラック測度の和であり、(a3) 以下を与える。 0.67
1−α for all v ∈ Domα. すべての v ∈ Domα に対して 1−α である。 0.56
Finally, let us rewrite (A2) in the simplified case 最後に (a2) を単純化したケースで書き直します 0.74
η (A3) (i) For all y ∈ Y, θ (cid:55)→ k(θ, y) is continuous; (ii) we have η (A3) (i) すべての y ∈ Y に対して θ (cid:55) → k(θ, y) は連続である; (ii) を持つ。 0.88
k(θj, y) × max 1(cid:54)j(cid:48)(c id:54)J k(θj, y) × max 1(cid:54)j(cid:48)(c id:54)J 0.88
max 1(cid:54)j(cid:54)J max 1(cid:54)j(cid:54)J 0.86
(cid:90) Y (cid:90) Y 0.82
If α = 0, we assume in addition that α = 0 ならば、さらにそのことを仮定する。 0.77
(cid:16) k(θj(cid:48) ,y) (cid:17)α−1 (cid:12)(cid:12)(cid :12)log (cid:16) k(θj ,y) (cid:16) k(θj(cid:48) ,y) (cid:17)α−1 (cid:12)(cid:12)(cid :12)log (cid:16) k(θj ,y) 0.78
max 1(cid:54)j(cid:54)J max 1(cid:54)j(cid:54)J 0.86
p(y) p(y) (cid:90) p(y) p(y) (cid:90) 0.83
Y ν(dy) < ∞. Y ν(dy) < ∞ である。 0.86
(cid:17)(cid:12)(cid :12)(cid:12) p(y)ν(dy) < ∞. (cid:17)(cid:12)(cid :12)(cid:12) p(y)ν(dy) < ∞。 0.86
We then have the following theorem, which establishes the full proof of the global convergence towards the optimum for the mixture weights when α < 1. 次に、以下の定理が成立し、α < 1 のときの混合重みの最適値に対する大域収束の完全な証明を確立する。 0.75
Theorem 2. Assume (A1) and (A3). 定理2。 (A1)、(A3)。 0.67
Let α < 1, let Θ = (θ1, . α < 1 とすると θ = (θ1, ) となる。 0.73
. . , θJ ) ∈ TJ be fixed and let κ be such that κ (cid:54) 0. . . , θJ ) ∈ TJ を固定し、κ を κ (cid:54) 0 とする。 0.87
Then for all λ ∈ SJ, Ψα(µλ,Θ) < ∞ and for any η > 0 the sequence (λn)n∈N(cid:63) defined by λ1 ∈ SJ and (5) is well-defined. すると、すべての λ ∈ SJ に対して、任意の η > 0 に対して、 λ1 ∈ SJ で定義される列 (λn)n⋅N(cid:63) と (5) は well-defined である。 0.81
If in addition (λ1, η) ∈ S + J × (0, 1] and {K(θ1,·), . さらに (λ1, η) ∈ S + J × (0, 1] と {K(θ1,·) が成り立つ。
訳抜け防止モード: 加法 (λ1, η ) ∈ s + j × (0, 0) である。 1 ] と { k(θ1 , · ) , , .
0.87
. . , K(θJ ,·)} are linearly independent, then . . , K(θJ ,·)} は線型独立である。 0.80
(i) (Ψα(µλn,Θ))n∈N(cid:63) is nonincreasing, (ii) the sequence (λn)n∈N(cid:63) converges to some λ(cid:63) ∈ SJ which is a fixed point of I mixt (iii) Ψα(µλ(cid:63),Θ) = inf λ(cid:48)∈SJ Ψα(µλ(cid:48),Θ). (i) (ψα(μλn,θ))nhtmln(cid:63) は非合成であり、 (ii) 列 (λn)nhtmln(cid:63) は、i mixt (iii) ψα(μλ(cid:63),θ) = inf λ(cid:48) ψα(μλ(cid:48),θ) の固定点である λ(cid:63) ∈ sj に収束する。 0.84
α , The proof of this result builds on Theorem 1 and Theorem 4 and is deferred to Appendix B.2. α , この結果の証明は Theorem 1 と Theorem 4 に基づいており、Appendix B.2 に導かれる。 0.83
Notice that since Ψα depends on λ through µλ,ΘK in Theorem 2, an identifiably condition was to be expected in order to achieve the convergence of the sequence (λn)n∈N(cid:63). 定理 2 の μλ から μλ へ λα が依存するので、列 (λn)n~N(cid:63) の収束を達成するために同定可能な条件が期待される。 0.80
Following Example 1, this identifiably condition notably holds for J (cid:54) d under the assumption that the θ1, ..., θJ are full-rank. 例1に従うと、この特定可能な条件は θ1, ..., θJ がフルランクであるという仮定の下で J (cid:54) d に対して顕著に成り立つ。
訳抜け防止モード: 例1。 この特定可能な条件は、J ( cid:54 ) d に対して明確に成り立つ。 θ1, ..., θJ はフルランクである。
0.67
We thus have the convergence of the Power Descent under less stringent conditions when α < 1 and when we consider the particular case of mixture models. したがって、α < 1 のときや混合モデルの特別な場合を考えるとき、より厳密な条件下でパワー降下が収束する。 0.69
This algorithm can easily become feasible for any choice of kernel K by resorting to an unbiased estimator of (bµλn,Θ,α(θj))1(cid:54)j(cid:54 )J in the update formula (5) (see Algorithm 3 of Appendix B.3). このアルゴリズムは、更新公式 (5) (Appendix B.3) において、 (bμλn,\,α(θj))1(cid:54)j(cid:54 )J の偏りのない推定子を利用することにより、カーネル K の選択に対して容易に実現可能である。 0.75
Nevertheless, contrary to the case α > 1 we still do not have a convergence rate for the Power Descent when α < 1. それにもかかわらず、α > 1 の場合とは対照的に、α < 1 のとき、パワー降下の収束率はいまだに持たない。 0.72
Furthermore, the important case α → 1, which corresponds to performing forward Kullback-Leibler minimisation, is not covered by the Power Descent algorithm. さらに、Kulback-Leibler最小化の実行に対応する重要なケース α → 1 は、パワー・Descent アルゴリズムによってカバーされない。 0.73
In the next section, we extend the Power Descent to the case α = 1. 次の節では、パワー Descent を α = 1 の場合にまで拡張する。 0.72
As we shall see, this will lead us to investigate the connections between the Power Descent and the Entropic Mirror Descent beyond the (α, Γ)-descent framework. ご覧の通り、これはパワー降下と (α, γ)-descent framework を超えるエントロピーミラー降下との間の関係を調べることにつながります。 0.66
As a result, we will introduce a novel algorithm closely-related to the Power Descent that yields an O(1/N ) convergence rate when µ = µλ,Θ and α < 1 (and more generally when µ ∈ M1(T) and α ∈ R). 結果として、μ = μλ と α < 1(そしてより一般的には μ ∈ M1(T) と α ∈ R) のとき、O(1/N ) 収束率をもたらすパワー・ディクセントと密接に関連する新しいアルゴリズムを導入する。 0.86
5 5 0.85
英語(論文から抽出)日本語訳スコア
4 Power Descent and Entropic Mirror Descent Recall from Section 2 that the Power Descent is defined for all α ∈ R \ {1}. 4 Power Descent and Entropic Mirror Descent Recall from Section 2, the Power Descent is defined for all α ∈ R \ {1}. 0.85
In this section, we first establish in Proposition 1 that the Power Descent can be extended to the case α = 1 and that we recover an Entropic Mirror Descent, showing that a deeper connection runs between the two approaches beyond the one identified by the (α, Γ)-descent framework. この節では、命題 1 において、パワー降下はケース α = 1 に拡張でき、エントロピーミラー降下を回復できることを最初に定め、(α, γ)-descent framework によって識別される2つのアプローチよりも深い接続が実行されることを示した。 0.78
This result relies on typical convergence and differentiability assumptions summarised in (D1) and which are deferred to Appendix C.1, alongside with the proof of Proposition 1. この結果は (D1) で要約された典型的な収束と微分可能性の仮定に依存しており、これは Appendix C.1 に導かれる。 0.72
Proposition 1 (Limiting case α → 1). 命題1(極限の場合 α → 1)。 0.70
Assume (A1) and (D1). assume (A1) と (D1) である。 0.72
Then, for all continuous and bounded real-valued functions h on T, we have that そして、T 上のすべての連続かつ有界な実数値函数 h に対して、我々はそれを持つ。 0.66
[Iα(µ)](h) = [I1(µ)](h) , [Iα(μ)](h) = [I1(μ)](h) , 0.85
lim α→1 where for all µ ∈ M1(T) and all θ ∈ T, we have set lim α→1 すべての μ ∈ M1(T) とすべての θ ∈ T に対して、集合を持つ。 0.76
I1(µ)(dθ) = I1(μ)(dθ) = 0.96
µ(dθ)e−ηbµ,1(θ) μ(dθ)e−ηbμ,1(θ) 0.66
µ (e−ηbµ,1 ) μ(e−ηbμ,1 ) 0.53
and bµ,1(θ) = そして bμ,1(θ) = 0.75
(cid:90) Y (cid:90) Y 0.82
k(θ, y) log k(θ, y) ログ 0.69
(cid:18) µk(y) (cid:18)μk(y) 0.83
(cid:19) p(y) (cid:19) p(y) 0.82
ν(dy) . (6) ν(dy)。 (6) 0.77
Here, we recognise the one-step transition associated to the Entropic Mirror Descent applied to Ψ1. ここでは、ψ1 に適用されるエントロピーミラー降下に関連するワンステップ遷移を認識する。 0.68
This algorithm is a special case of [17] with Γ(v) = e−ηv and α = 1 and as such, it is known to lead to a systematic decrease in the forward Kullback-Leibler divergence and to enjoy an O(1/N ) convergence rate under the assumptions that (4) holds and η ∈ (0, 1) [17, Theorem 3]. このアルゴリズムは、γ(v) = e−ηv と α = 1 を持つ [17] の特別な場合であり、従って、前方のkullback-leibler の発散を体系的に減少させ、(4) と η ∈ (0, 1) [17, theorem 3] の仮定の下で o(1/n ) 収束率を享受することが知られている。 0.83
We have thus obtained that the Power Descent coincides exactly with the Entropic Mirror Descent applied to Ψ1 when α = 1 and we now focus on understanding the links between Power Descent and Entropic Mirror Descent when α ∈ R \ {1}. したがって、パワー降下は α = 1 のとき ψ1 に適用されるエントロピーミラー降下と正確に一致し、α ∈ r \ {1} のときパワー降下とエントロピーミラー降下の間の関係を理解することに焦点を当てている。 0.71
For this purpose, let κ be such that (α − 1)κ (cid:62) 0 and let us study first-order approximations of the Power Descent and the Entropic Mirror Descent applied to Ψα when bµn,α(θ) ≈ µn(bµn,α) for all θ ∈ T. Letting η > 0, we have that the update formula for the Power Descent is given by この目的のために、κ を (α − 1)κ (cid:62) 0 とし、すべての θ ∈ T に対して bμn,α(θ) シュμn(bμn,α) が適用されたとき、パワー・ディクセントとエントロピック・ミラー・ディクセントの1次近似を研究させよう。
訳抜け防止モード: この目的のために、κ を ( α − 1)κ ( cid:62 ) 0 とする。 まず、bμn のとき ψα に適用されるパワー降下とエントロピーミラー降下の次数近似について研究する。 η > 0 とするすべての θ ∈ t に対して α(θ ) は μn(bμn, α ) である。 パワー降下の更新式は
0.86
µn+1(dθ) = μn+1(dθ) = 0.71
µn(dθ) [(α − 1)(bµn,α(θ) + κ) + 1] 1−α ) 1−α − η µn(dθ) [(α − 1)(bµn,α(θ) + κ) + 1] 1−α ) 1−α − η 0.95
µn([(α − 1)(bµn,α + κ) + 1] μn([(α − 1)(bμn,α + κ) + 1] 0.89
1−α ≈ v η 1-α > v。 η 0.66
η η η 1−α , n ∈ N(cid:63) . η η η 1−α , n ∈ N(cid:63)。 0.80
Now using the first order approximation u (α−1)(bµn,α(θ)+κ)+1 (α−1)(µ(bµn,α)+κ)+1 and v = 1, we can deduce the following approximated update formula 第1次近似 u (α−1)(bμn,α(θ)+κ)+1 (α−1)(μ(bμn,α)+κ)+1 と v = 1 を用いて、以下の近似更新公式を導出できる。 0.84
α−1 v η 1−α−1(u − v) with u = α−1v η u = 1−α−1(u − v) 0.79
µn+1(dθ) = µn(dθ) μn+1(dθ) = μn(dθ) 0.74
1 − η α − 1 1 − η α − 1 0.85
bµn,α(θ) − µn(bµn,α) bμn,α(θ) − μn(bμn,α) 0.87
µn(bµn,α) + κ + 1/(α − 1) µn(bµn,α) + κ + 1/(α − 1) 0.94
, n ∈ N(cid:63) . , n ∈ N(cid:63)。 0.85
Letting η(cid:48) > 0, the update formula for the Entropic Mirror Descent applied to Ψα can be written as η(cid:48) > 0 とすると、α に適用されるエントロピックミラーの更新公式が書ける。 0.67
µn+1(dθ) = μn+1(dθ) = 0.71
µn(dθ) exp [−η(cid:48)(bµn,α(θ) + κ)] μn(dθ) exp [−η(cid:48)(bμn,α(θ) + κ)] 0.92
µn(exp [−η(cid:48)(bµn,α + κ)]) μn(exp [−η(cid:48)(bμn,α + κ)]) 0.96
, n ∈ N(cid:63) , , n ∈ N(cid:63) , 0.96
(7) and we obtain in a similar fashion that an approximated version of this iterative scheme is (7) 同様の方法で この反復スキームの近似版が 0.64
µn+1(dθ) = µn(dθ) [1 − η(cid:48) (bµn,α(θ) − µn(bµn,α))] , n ∈ N(cid:63) . μn+1(dθ) = μn(dθ) [1 − η(cid:48) (bμn,α(θ) − μn(bμn,α))] , n ∈ N(cid:63) 。 0.83
for Thus, η [(α − 1)(µn(bµn,α) + κ) + 1] update formula given by ですから したがって η [(α − 1)(μn(bμn,α) + κ) + 1] の更新式は 0.70
the two approximated formulas above to coincide, we need to set η(cid:48) = −1. 上記の2つの近似式は一致し、η(cid:48) = −1 とする。 0.74
Now coming back to (7), we see that this leads us to consider the さて (7) に戻ると、これが考慮すべき点が分かります。 0.68
µn+1(dθ) = μn+1(dθ) = 0.71
µn(dθ) exp μn(dθ) exp 0.88
(α−1)(µn(bµn,α)+κ)+1 (α−1)(μn(bμn,α)+κ)+1 0.78
bµn,α(θ) µn bμn,α(θ) μn 0.85
exp (α−1)(µn(bµn ,α)+κ)+1 exp (α−1)(μn(bμn ,α)+κ)+1 0.82
bµn ,α (cid:104)−η (cid:104)−η bμn ,α (cid:104)−η(cid:104)−η 0.74
(cid:16) (cid:105) (cid:105)(cid:17) , n ∈ N(cid:63) . (cid:16) (cid:105) (cid:105)(cid:17) , n ∈ N(cid:63) である。 0.74
(8) 6 (cid:20) (8) 6 (cid:20) 0.83
(cid:21) (cid:21) 0.78
英語(論文から抽出)日本語訳スコア
(cid:18)(cid:90) (cid:18)(cid:90) 0.75
Y 1 (cid:18) Y 1 (cid:18) 0.83
Observe then that (8) can again be seen as an Entropic Mirror Descent, but applied this time to the objective function defined for all α ∈ R \ {0, 1} by このとき、 (8) は再びエントロピックミラー Descent と見ることができるが、今回はすべての α ∈ R \ {0, 1} に対して定義される目的函数に適用する。 0.81
(cid:19) ΨAR (cid:19) ψar 0.58
α (µ) := α(α − 1) α (µ) := α(α − 1) 0.79
log µk(y)αp(y)1−αν(dy) + (α − 1)κ ログ μk(y)αp(y)1−αν(dy) + (α − 1)κ 0.83
, meaning we have applied the monotonic transformation , モノトニック変換を応用し 0.64
u (cid:55)→ u (cid:55)→ 0.88
1 α(α − 1) 1 α(α − 1) 0.85
log α(α − 1)u + α + (1 − α) ログ α(α − 1)u + α + (1 − α) 0.78
p(y)ν(dy) + (α − 1)κ p(y)ν(dy) + (α − 1)κ 0.85
(cid:19) (cid:90) (cid:19) (cid:90) 0.78
Y α . For this reason we call the algorithm given by (8) the Renyi Descent thereafter. Y α . このため、 (8) で与えられるアルゴリズムを後に renyi 降下と呼ぶ。 0.81
to the initial objective function Ψα (see Appendix C.2 for the derivation of (8) based on the objective function ΨAR α ). 最初の目的関数 ψα について (目的関数 ψar α に基づいて (8) を導出するための付録 c.2 を参照)。 0.77
Hence, in the spirit of Renyi’s α-divergence gradient-based methods for Variational Inference (e.g [9, 10]), we can motivate the iterative scheme (8) by observing that we recover the Variational Renyi bound introduced in [10] up to a constant −α−1 when we let p = p(·, D), κ = 0 and α > 0 in ΨAR Contrary to the Entropic Mirror Descent applied to Ψα, the Renyi Descent now shares the same first-order approximation as the Power Descent. したがって、renyi の α-次元勾配に基づく変分推論法(例: [9, 10])の精神では、[10] に導入された変分レニー境界を p = p(·, d), κ = 0 および α > 0 を ψα に適用されるエントロピーミラー降下に対して ψar にすると、[10] に導入された変分レニー境界を定数 −α−1 まで回復させることで、反復スキーム(8) をモチベーションすることができる。 0.73
This might explain why the behavior of the Entropic Mirror Descent applied to Ψα and of the Power Descent differed greatly when α < 1 in the numerical experiments from [17] despite their theoretical connection through the (α, Γ)-descent framework (the former performing poorly numerically compared to the later as the dimension increased). このことは、[17]から[17]への数値実験において、α < 1 の次元が大きくなるにつれて、その理論的な関係が(前者は後から数値的に劣る)、α に適用されるエントロピックミラーの輝きの挙動が大きく異なる理由を説明できるかもしれない。 0.72
Strikingly, we can prove an O(1/N ) convergence rate towards the global optimum for the Renyi Descent. 厳密には、renyi Descent に対する大域的な最適化に向けて O(1/N ) 収束率を証明できる。 0.69
Letting κ(cid:48) ∈ R, denoting by DomAR an interval of R such that for all θ ∈ T and all µ ∈ M1(T), κ(cid:48) ∈ R を、すべての θ ∈ T とすべての μ ∈ M1(T) に対して、DomAR が R の区間を表すようにする。 0.84
α bµ,α(θ) + 1/(α − 1) α bμ,α(θ) + 1/(α − 1) 0.91
(α − 1)(µ(bµ,α) + κ) + 1 and introducing the assumption on η (α − 1)(μ(bμ,α) + κ) + 1 でη 上の仮定を導入する 0.93
+ κ(cid:48) + κ(cid:48) 0.88
and µ(bµ,α) + 1/(α − 1) そして μ(bμ,α) + 1/(α − 1) 0.84
(α − 1)(µ(bµ,α) + κ) + 1 (α − 1)(µ(bµ,α) + κ) + 1 0.71
+ κ(cid:48) ∈ DomAR + κ(cid:48) ∈ DomAR 0.94
α (A4) For all v ∈ DomAR α (A4)すべての v ∈ DomAR 0.89
α , 1 − η(α − 1)(v − κ(cid:48)) (cid:62) 0. α , 1 − η(α − 1)(v − κ(cid:48)) (cid:62) 0。 0.94
we indeed have the following convergence result. 実際、次の収束結果が得られる。 0.64
Theorem 3. Assume (A1) and (A4). 理論3。 (A1)、(A4)。 0.68
Let α ∈ R \ {1} and let κ be such that (α − 1)κ > 0. α ∈ R \ {1} とし、κ を (α − 1)κ > 0 とする。 0.78
Define |B|∞,α := supθ∈T,µ∈M1(T) |bµ,α(θ) + 1/(α − 1)| and assume that |B|∞,α < ∞. B|∞,α := supθinftyT,μ$M1(T) |bμ,α(θ) + 1/(α − 1)| と定義し、|B|∞,α < ∞ と仮定する。 0.84
Moreover, let µ1 ∈ M1(T) be such that Ψα(µ1) < ∞. さらに、μ1 ∈ M1(T) を yα(μ1) < ∞ とする。 0.87
Then, the following assertions hold. 次に、以下の主張がある。 0.67
(i) The sequence (µn)n∈N(cid:63) defined by (8) is well-defined and the sequence (Ψα(µn))n∈N(cid:63) is (i) (8) で定義される配列 (μn)nhtmln(cid:63) はよく定義され、配列 (ψα(μn))nhtmln(cid:63) は、 0.75
non-increasing. (ii) For all N ∈ N(cid:63), we have 非増加。 (ii) すべての N ∈ N(cid:63) に対して、我々は 0.74
(cid:20) measures dominated by µ1, KL(µ(cid:63)||µ1) =(cid:82) (cid:20) μ1,KL(μ(cid:63)||μ1) =(cid:82) 0.75
Ψα(µN ) − Ψα(µ(cid:63)) (cid:54) Lα,2 N ψα(μn) − ψα(μ(cid:63))(cid:54) lα,2n 0.69
KL(µ(cid:63)||µ1) + L KL(μ(cid:63)||μ1) + L 0.81
(cid:21) ∆1 (cid:21) ∆1 0.78
, Lα,3 Lα,1(α − 1)κ , Lα,3 Lα,1(α − 1)κ 0.73
(9) where µ(cid:63) is such that Ψα(µ(cid:63)) = inf ζ∈M1,µ1 (T) Ψα(ζ), M1,µ1(T) denotes the set of probability T log (dµ(cid:63)/dµ1) dµ(cid:63), ∆1 = Ψα(µ1) − Ψα(µ(cid:63)) (9) ここで μ(cid:63) は ψα(μ(cid:63)) = inf であるようなもので、m1,μ1(t) は確率 t log (dμ(cid:63)/dμ1) dμ(cid:63) の集合を表す。
訳抜け防止モード: (9) ここで μ(cid:63 ) は ψα(μ(cid:63 ) となる。 確率 t log (dμ(cid:63)/dμ1 ) dμ(cid:63) は確率 t log (dμ(cid:63) の組を表す。 ∆1 = Ψα(µ1 ) − Ψα(µ(cid:63 ) )
0.87
and Lα,2, L, Lα,3, Lα,1 are finite constants defined in (20). Lα,2, L, Lα,3, Lα,1 は (20) で定義される有限定数である。 0.59
The proof of this result is deferred to Appendix C.3 and we present in the next example an application of this theorem to the particular case of mixture models. この結果の証明は付録 c.3 によって延期され、次の例ではこの定理を混合モデルの特定の場合に適用する。 0.74
Example 2. Let α ∈ R \ {1}, let J ∈ N(cid:63), let Θ = (θ1, . 例2。 α ∈ r \ {1} とし、j ∈ n(cid:63) とし、θ = (θ1, ) とする。
訳抜け防止モード: 例2。 α ∈ R \ { 1 } とし、J ∈ N(cid:63 ) とする。 let Θ = ( θ1 , .
0.80
. . , θJ ) ∈ TJ, let µ1 = J−1(cid:80)J (cid:112)2 log(J)|B|∞,α . . , θJ ) ∈ TJ, let μ1 = J−1(cid:80)J (cid:112)2 log(J)|B|∞,α 0.86
j=1 δθj and let |B|∞,α (α−1)κ + κ(cid:48)] with κ(cid:48) ∈ R. In addition, assume that 1− η|κ|−1|B|∞,α > 0. j = 1 δθj and let |B|∞,α (α−1)κ + κ(cid:48)] with κ(cid:48) ∈ R さらに、1− η|κ|−1|B|∞,α > 0 とする。 0.80
Ψα(µN ) − Ψα(µ(cid:63)) (cid:54) |α − 1|(|B|∞,α + |κ|) ψα(μn ) − ψα(μ(cid:63)) (cid:54) |α − 1|(|b|∞,α + |κ|) 0.79
α = [− |B|∞,α DomAR Then, taking κ(cid:48) = −3 α = [− |B|∞, α DomAR そして κ(cid:48) = −3 を取る 0.96
(α−1)κ + κ(cid:48), |B|∞,α (α−1)κ , we obtain (α−1)κ + κ(cid:48), |B|∞,α (α−1)κ , 0.94
(cid:34) (cid:35) (cid:34) (cid:35) 0.78
log J , η + log J , η + 0.85
(α − 1)κ(1 − η|κ|−1|B|∞,α) (α − 1)κ(1 −η|κ|−1|B|∞,α) 0.78
N 7 N 7 0.85
英語(論文から抽出)日本語訳スコア
Table 1: Summary of the theoretical results obtained in this paper compared to [17] Renyi Descent not covered 表1:本論文で得られた理論結果の概要 [17] Renyi Descent not covered 0.73
Power Descent α < 1: convergence under restrictive assumptions; α > 1: O(1/N ) convergence rate パワーDescent α < 1: convergence under limitedive assumption; α > 1: O(1/N ) convergence rate 0.91
[17] This paper α < 1: full proof of convergence for mixture weights; [17] この論文 α < 1: 混合重みに対する収束の完全証明。 0.78
extension to α = 1 with O(1/N ) convergence rate O(1/N ) 収束率で α = 1 に拡張する 0.87
O(1/N ) convergence rate O(1/N) 収束率 0.75
where we have used that KL(µ(cid:63)||µ1) (cid:54) log J, ∆1 (cid:54) √ in (20) satisfy Lα,2 = η−1|α − 1|(|B|∞,α + |κ|), L = η2eη Lα,1 = (1 − η|κ|−1|B|∞,α)ηe ここでは、KL(μ(cid:63)||μ1) (cid:54) log J を (20) で満たし、Lα,2 = η−1|α − 1|(|B|∞,α + |κ|) L = η2eη Lα,1 = (1 − η|κ|−1|B|∞,α)ηe を満たす。 0.74
|B|∞,α (α−1)κ −ηκ(cid:48) b|∞,α (α−1)κ −ηκ(cid:48) 0.76
−η . 2 log J|B|∞,α and that the constants defined and −η . 2 log J|B|∞,α, and the constants defined。 0.86
|B|∞,α (α−1)κ −ηκ(cid:48) b|∞,α (α−1)κ −ηκ(cid:48) 0.76
|B|∞,α (α−1)κ +ηκ(cid:48) b|∞,α (α−1)κ +ηκ(cid:48) 0.76
, Lα,3 = eη , Lα,3 = eη 0.65
√ To put things into perspective, notice that the Renyi Descent enjoys an O(1/ そして、renyiの子孫がo(1/) を楽しんでいることに気付く。 0.40
Entropic Mirror Descent algorithm for the sequence (Ψα(N−1(cid:80)N エントロピックミラーDescent algorithm for the sequence (\α(N−1(cid:80)N 0.89
N ) convergence rate as a n=1 µn))N∈N(cid:63) under our assumptions N) 収束速度 (n=1 μn))N(cid:63) を仮定する。 0.75
√ when η is proportional to 1/ The improvement thus lies in the fact that deriving an O(1/N ) convergence rate usually requires stronger smoothness assumptions on Ψα [23, Theorem 6.2] that we do not assume in Theorem 3. √ η が 1/ に比例すると、o(1/n ) 収束率の導出は、通常、定理 3 において仮定しない ψα [23, theorem 6.2] 上のより強い滑らかさの仮定を必要とする。 0.79
Furthermore, due to the monotonicity property, our result only involves the measure µN at time N さらに、単調性のため、我々の結果は時 N における測度 μN にのみ関係する。 0.73
while typical Entropic Mirror Result are expressed in terms of the average N−1(cid:80)N 典型的なエントロピックミラーの結果は平均N−1(cid:80)Nで表される 0.80
N, N being fixed (see [22] or [23, Theorem 4.2. N, N を固定する([22] または [23, Theorem 4.2 を参照)。 0.86
]). n=1 µn. ]). n=1μn。 0.52
Finally, observe that the Renyi Descent becomes feasible in practice for any choice of kernel K by letting µ be a weighted sum of Dirac measures i.e µ = µλ,Θ and by resorting to an unbiased estimate of (bµ,α(θj))1(cid:54)j(cid:54 )J (see Algorithm 4 of Appendix C.4). 最後に、μ をディラック測度の重み付き和、すなわち μ = μλ,θ とし、(bμ,α(θj))1(cid:54)j(cid:54 )j(cid:54)j の偏りのない推定に頼ることで、カーネル k の任意の選択に対して、レニー降下が実現可能であることを確かめる(付録 c.4 のアルゴリズム 4 を参照)。
訳抜け防止モード: 最後に、Renyi Descent は実際に核 K の選択に対して μ を Dirac 測度の重み付け和、すなわち μ = μλ, ... で実現可能であることを観察する。 そして、(bμ,α(θj))1(cid:54)j(cid:54 )J ( Appendix C.4 のアルゴリズム 4 を参照のこと。
0.76
The theoretical results we have obtained are summarised in Table 1 and we next move on to numerical experiments. 得られた理論的結果は表1にまとめられ、次に数値実験に移行する。 0.73
5 Simulation study 5 シミュレーション研究 0.79
Let the target p be a mixture density of two d-dimensional Gaussian distributions multiplied by a positive constant c such that p(y) = c × [0.5N (y;−sud, Id) + 0.5N (y; sud, Id)], where ud is the d-dimensional vector whose coordinates are all equal to 1, s = 2, c = 2 and Id is the identity matrix. 対象 p を、p(y) = c × [0.5N (y;−sud, Id) + 0.5N (y; sud, Id)] という正の定数 c で乗算した2つの d-次元ガウス分布の混合密度とする。
訳抜け防止モード: 対象 p を二つの d-次元ガウス分布の混合密度とし、p(y ) = c × [ 0.5n (y;−sud) となる正の定数 c を乗じる。 i d ) + 0.5n ( y ; sud, i d ) ], ここで ud は、座標がすべて 1 に等しい d-次元ベクトルである。 s = 2, c = 2 および i d はidマトリクスである。
0.82
Given J ∈ N(cid:63), the approximating family is described by J ∈ N(cid:63) が与えられたとき、近似族は記述される。 0.61
y (cid:55)→ µλ kh(y) = y (cid:55)→μλ kh(y) = 0.86
J(cid:88) j=1 j(cid:88) j=1 0.68
λjkh(y − θj) : λ ∈ SJ , θ1, . λjkh(y − θj) : λ ∈ SJ , θ1, 。 0.91
. . , θJ ∈ T . . , θJ ∈ T 0.89
 , where Kh is a Gaussian transition kernel with bandwidth h and kh denotes its associated kernel density.  , ここで Kh は帯域幅 h と kh が関連するカーネル密度を表すガウス遷移カーネルである。 0.82
Since the Power Descent and the Renyi Descent operate only on the mixture weights λ of µλkh during the optimisation, a fully adaptive algorithm can be obtained by alternating T times between Power Descent と Renyi Descent は、最適化中に μλkh の混合重み λ でのみ動作するため、T 倍の交互化によって完全に適応的なアルゴリズムが得られる。 0.77
8 8 0.85
英語(論文から抽出)日本語訳スコア
an Exploitation step where the mixture weights are optimised and an Exploration step where the θ1, . 混合重みが最適化される爆発ステップと、θ1, が探索ステップである。 0.65
. . , θJ are updated, as written in Algorithm 2. . . θjはアルゴリズム2で書かれているように更新される。 0.80
Algorithm 2: Complete Exploitation-Explora tion Algorithm Input: p: measurable positive function, α: α-divergence parameter, q0: initial sampler, Kh: Gaussian transition kernel, T : total number of iterations, J: dimension of the parameter set. Algorithm 2: Complete Exploitation-Explora tion Algorithm 入力: p: measurable positive function, α: α-divergence parameter, q0: initial sampler, Kh: Gaussian transition kernel, T : total number of iterations, J: dimension of the parameter set。 0.92
Output: Optimised weights λ and parameter set Θ. 出力:最適化ウェイト λ とパラメータセット θ。 0.82
Draw θ1,1, . . . , θJ,1 from q0. θ1,1。 . . θJ,1。 0.77
for t = 1 . t = 1 の場合。 0.84
. . T do Exploitation step : Set Θ = {θ1,t, . . . やれよ 利用ステップ: set θ = {θ1,t, . 0.72
. . , θJ,t}. . . θj,t} である。 0.81
Perform the Power Descent or Renyi Descent and obtain the optimised mixture weights λ. Power Descent または Renyi Descent を実行し、最適化された混合重量 λ を得る。 0.68
Exploration step : Perform any exploration step of our choice and obtain θ1,t+1, . 探索ステップ:我々の選択の探索ステップを実行し、θ1,t+1, を得る。 0.72
. . , θJ,t+1. . . θJ,t+1。 0.83
Many choices of Exploration step can be envisioned in Algorithm 2 since there is no constraint on {θ1, . 探索ステップの多くの選択は、{θ1, .} に制約がないため、アルゴリズム2で想定できる。 0.74
. . , θJ}. . . θj である。 0.82
Here, we consider the same Exploration step as the one they used in [17]: h is set to be proportional to J−1/(4+d) and the particles are updated by i.i.d sampling according to µλ,Θkh (and we refer to Appendix C.5 for some details about alternative possible choices of Exploration step). ここでは、 [17] で使用したのと同じ探索ステップを考える: h は J−1/(4+d) に比例して設定され、その粒子は μλ,\kh に従って i.d サンプリングによって更新される(探索ステップの代替選択に関するいくつかの詳細については Appendix C.5 を参照)。 0.76
As for the Power Descent and Renyi Descent, we perform N transitions of these algorithms at each time √ t = 1 . Power Descent と Renyi Descent について、これらのアルゴリズムの N 遷移は、毎回 t = 1 となる。 0.68
. . T according to Algorithm 3 and 4, in which the initial weights are set to be [1/J, . . . t アルゴリズム 3 と 4 に従って,初期重みを [1/j, ...] に設定する。 0.78
. . , 1/J], N with η0 > 0 and M samples are used in the estimation of (bµλ,Θ,α(θj,t))1(cid:54)J at each η = η0/ iteration n = 1 . . . bμλ,θ,α(θj,t))1(cid:54)j の各 η = η0/ イテレーション n = 1 の推定には、η0 > 0 と m のサンプルを持つ n と n が用いられる。 0.86
. . N. We take J = 100, M ∈ {100, 1000, 2000}, α = 0.5, κ = 0, η0 = 0.3 and the initial particles θ1, . . . N. J = 100, M ∈ {100, 1000, 2000}, α = 0.5, κ = 0, η0 = 0.3, 初期粒子 θ1, とする。 0.87
. . , θJ are sampled from a centered normal distribution q0 with covariance matrix 5Id. . . θJ は共分散行列 5Id を持つ中心正規分布 q0 からサンプリングされる。 0.81
We let T = 10, N = 20 and we replicate the experiment 100 times independently in dimension d = 16 for each algorithm. T = 10, N = 20 とし、各アルゴリズムに対して次元 d = 16 で100倍独立に実験を複製する。 0.81
The convergence is assessed using a Monte Carlo estimate of the Variational Renyi bound introduced in [10] (which requires next to none additional computations). この収束は、[10]に導入された変分レーニー境界のモンテカルロ推定を用いて評価される。 0.44
The results for the Power Descent and the Renyi Descent are displayed on Figure 1 below and we add the Entropic Mirror Descent applied to Ψα as a reference. パワー降下とレーニー降下の結果は下記の図1に表示され、ψα に適用されるエントロピーミラー降下を基準として追加する。 0.70
Figure 1: Plotted is the average Variational Renyi bound for the Power Descent (PD), the Renyi Descent (RD) and the Entropic Mirror Descent applied to Ψα (EMD) in dimension d = 16 computed over 100 replicates with η0 = 0.3 and α = 0.5 and an increasing number of samples M. 図1: プロットは、パワー・ダイアンス(PD)、レニー・ディアンス(RD)、エントロピック・ミラー・ディアンス(英語版)(Entropic Mirror Descent)に対する平均変分 Renyi で、次元 d = 16 の 100 以上の複製を η0 = 0.3 と α = 0.5 で計算し、サンプル M の数が増加する。
訳抜け防止モード: 図1:Plottedは、パワー蛍光(PD)に対する平均変分レニーバウンドである。 次元 d = 16 の 100 以上の複製を η0 = 0.3 と α = 0.5 で計算した Renyi Descent (RD ) と Entropic Mirror Descent (EDD ) に適用されるエントロピックミラーの Descent サンプル数は増加傾向にある。
0.88
We then observe that the Renyi Descent is indeed better-behaved compared to the Entropic Mirror Descent applied to Ψα, which fails in dimension 16. すると、レニイの輝きは、次元16で失敗するαに適用されるエントロピックミラーの輝きよりも確かに良い振る舞いである。 0.61
Furthermore, it matches the performances of the Power Descent as M increases in our numerical experiment, which illustrates the link between the two algorithms we have established in the previous section. さらに、前節で確立した2つのアルゴリズム間のリンクを示す数値実験でMが増加するにつれて、パワーディフレクションの性能と一致する。 0.72
Discussion From a theoretical standpoint, no convergence rate is yet available for the Power Descent algorithm when α < 1. 理論的観点からの考察では、α < 1 の場合、パワー降下アルゴリズムでは収束速度は得られない。 0.73
An advantage of the novel Renyi Descent algorithm is then that while being close to the Power Descent, it also benefits from the Entropic Mirror Descent optimisation literature and as such O(1/ N ) convergence rates hold, which we have been able to improve to O(1/N ) convergence rates. 新たなRenyi Descentアルゴリズムの利点は、Power Descentに近いが、Entropic Mirror Descent optimization literature の恩恵を受けており、O(1/N) 収束率を保ち、O(1/N) 収束率を改善することができることである。 0.68
√ 9 √ 9 0.85
英語(論文から抽出)日本語訳スコア
A practical use of the Power Descent and of the Renyi Descent algorithms requires approximations to handle intractable integrals appearing in the update formulas so that the Power Descent applies the function Γ(v) = [(α − 1)v + 1]η/(1−α) to an unbiased estimator of the translated gradient bµ,α(θ) + κ before renormalising, while the the Renyi Descent applies the Entropic Mirror Descent function Γ(v) = e−ηv to a biased estimator of bµn,α(θ)/(µn(bµn,α) + κ + 1/(α − 1)) before renormalising. パワー降下アルゴリズムとレーニー降下アルゴリズムの実用的利用は、更新公式に現れる難解な積分を扱うために近似を必要とするため、パワー降下関数 γ(v) = [(α − 1)v + 1]η/(1−α) を、再正規化前に変換された勾配 bμ,α(θ) + κ の偏りのない推定子に適用し、一方、レーニー降下関数 γ(v) = e−ηv を、再正規化前の偏りのある推定関数 bμn,α(θ)/(μn(bμn,α) + κ + 1/(α − 1)) に適用する。 0.80
Finding which approach is most suitable between biased and unbiased α-divergence minimisation is still an open issue in the literature, both theoretically and empirically [15, 16, 19]. 偏見と偏見のないα偏差最小化のどちらが最適かを見つけることは、理論上も経験上も文学上は未解決の問題である [15, 16, 19]。 0.64
Due to the exponentiation, considering the α-divergence instead of Renyi’s α-divergence has for example been said to lead to high-variance gradients [11, 10] and low Signal-to-Noise ratio when α (cid:54)= 0 [16] during the stochastic gradient descent optimization. 指数化のため、例えばレニイのα偏差の代わりにα偏差を考えると、確率勾配勾配の最適化中にα(cid:54)=0[16]のとき、高分散勾配 [11, 10] と低信号-雑音比をもたらすと言われている。 0.74
In that regard, our work sheds light on additional links between unbiased and biased α-divergence methods beyond the framework of stochastic gradient descent algorithms, as both the unbiased Power Descent and the biased Renyi Descent share the same first order approximation. その点に関して、我々の研究は、確率的勾配降下アルゴリズムの枠組みを超えて、偏りのないα-ダイバージェンス法と偏りのないα-ダイバージェンス法の間の追加の関連に光を当てている。 0.58
6 Conclusion We investigated algorithms that can be used to perform mixture weights optimisation for α-divergence minimisation regardless of how the mixture parameters are obtained. 6 結論 混合パラメータの取得方法にかかわらず,α分散最小化のための混合重み付けを最適化するアルゴリズムについて検討した。 0.75
We have established the full proof of the convergence of the Power Descent algorithm in the case α < 1 when we consider mixture models and bridged the gap with the case α = 1. 混合モデルを考えるとき、α < 1 の場合におけるパワー降下アルゴリズムの収束の完全な証明を確立し、そのギャップを α = 1 の場合で橋渡しした。
訳抜け防止モード: 我々は混合モデルを考慮した場合のα < 1 の場合におけるパワー・ディクセント・アルゴリズムの収束の完全な証明を確立した。 α = 1 の場合とギャップを埋める。
0.84
We also introduced a closely-related algorithm called the Renyi Descent. また,renyi降下と呼ばれる近縁なアルゴリズムも導入した。 0.66
We proved it enjoys an O(1/N ) convergence rate and illustrated in practice the proximity between these two algorithms when the number of samples M increases. 我々は、O(1/N)収束率を楽しみ、実際にサンプルMの数が増加すると、これらの2つのアルゴリズム間の近接性を実証した。 0.69
Further work could include establishing theoretical results regarding the stochastic version of these two algorithms, as well as providing complementary empirical results comparing the performances of the unbiased α-divergence-based Power Descent algorithm to those of the biased Renyi’s α-divergencebased Renyi Descent. さらなる研究として、これら2つのアルゴリズムの確率的バージョンに関する理論的結果の確立や、偏りのないα-ダイバージェンスに基づくパワー降下アルゴリズムの性能とバイアスド・レーニーのα-ダイバージェンスに基づくレーニー降下の性能を比較する補完的経験的結果の提供がある。
訳抜け防止モード: さらなる作業には これら2つのアルゴリズムの確率版に関する理論的結果の確立 偏りのないα-発散に基づくパワー降下アルゴリズムの性能と偏りのあるrenyi's α-発散に基づくrenyi降下の性能を比較した補完的実験結果を提供する。
0.76
References [1] Michael I. Jordan, Zoubin Ghahramani, Tommi S. Jaakkola, and Lawrence K. Saul. 参照: Michael I. Jordan, Zoubin Ghahramani, Tommi S. Jaakkola, Lawrence K. Saul 0.70
An introduction to variational methods for graphical models. グラフィカルモデルのための変分法入門 0.52
Machine Learning, 37(2):183–233, 1999. 機械学習, 37(2):183–233, 1999 0.88
[2] Matthew James. マシュー・ジェームズ(Matthew James)。 0.65
Beal. Variational algorithms for approximate bayesian inference. ビール。 近似ベイズ推定のための変分アルゴリズム 0.62
PhD thesis, 01 2003. 博士論文,01。 2003. 0.80
[3] Matthew D. Hoffman, David M. Blei, Chong Wang, and John Paisley. Matthew D. Hoffman, David M. Blei, Chong Wang, John Paisley. 0.68
Stochastic variational inference. Journal of Machine Learning Research, 14(4):1303–1347, 2013. 確率的変動 推測だ Journal of Machine Learning Research, 14(4):1303–1347, 2013 0.64
[4] Tom Minka. トム・ミンカ(Tom Minka)。 0.66
Divergence measures and message passing. ダイバージェンス対策とメッセージパッシング。 0.53
Technical Report MSR-TR-2005-173, MSR-TR-2005-173, 0.51
January 2005. [5] Huaiyu Zhu and Richard Rohwer. 2005年1月。 [5]Huaiyu ZhuとRichard Rohwer。 0.72
Information geometric measurements of generalisation. 一般化の情報幾何学的計測 0.79
Tech- nical Report NCRG/4350, Aug 1995. 技術 NCRG/4350、1995年8月。 0.65
[6] Huaiyu Zhu and Richard Rohwer. [6]Huaiyu ZhuとRichard Rohwer。 0.79
Bayesian invariant measurements of generalization. 一般化のベイズ不変測度。 0.59
Neural Processing Letters, 2:28–31, December 1995. 神経 2:28-31、1995年12月。 0.59
[7] Alfréd Rényi. アルフレッド・レニー(Alfréd Rényi)。 0.47
On measures of entropy and information. エントロピーと情報の尺度について 0.60
In Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Contributions to the Theory of Statistics, pages 547–561, Berkeley, Calif., 1961. the fourth berkeley symposium on mathematical statistics and probability, volume 1: contributions to the theory of statistics, pages 547–561, berkeley, calif., 1961 (英語) 0.72
University of California Press. カリフォルニア大学出版局教授。 0.69
[8] Tim van Erven and Peter Harremoes. 8]Tim van Erven氏とPeter Harremoes氏。 0.80
Rényi divergence and kullback-leibler divergence. Rényi divergenceとKullback-leibler divergence。 0.79
IEEE Transactions on Information Theory, 60(7):3797–3820, Jul 2014. IEEE 情報理論に関するトランザクション 60(7):3797–3820, Jul 2014 0.85
[9] Jose Hernandez-Lobato, Yingzhen Li, Mark Rowland, Thang Bui, Daniel Hernandez-Lobato, and Richard Turner. 9]José Hernandez-Lobato、Yingzhen Li、Mark Rowland、Thang Bui、Daniel Hernandez-Lobato、Richard Turner。 0.78
Black-box alpha divergence minimization. ブラックボックス アルファ発散最小化。 0.68
In Maria Florina Balcan and Kilian Q. Weinberger, editors, Proceedings of The 33rd International Conference on Machine Learning, Maria Florina Balcan and Kilian Q. Weinberger, editors, Proceedings of the 33rd International Conference on Machine Learning (英語) 0.91
10 10 0.85
英語(論文から抽出)日本語訳スコア
volume 48 of Proceedings of Machine Learning Research, pages 1511–1520, New York, New York, USA, 20–22 Jun 2016. proceedings of machine learning research, pages 1511–1520, new york, new york, usa, 20–22 jun 2016 (英語) 0.78
PMLR. [10] Yingzhen Li and Richard E Turner. PMLR。 [10] Yingzhen LiとRichard E Turner。 0.81
Rényi divergence variational inference. rényi divergence variational inference (英語) 0.70
In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 1073–1081. D.D. Lee, M. Sugiyama, U.V. Luxburg, I. Guyon, R. Garnett, editors, Advances in Neural Information Processing Systems 29 page 1073–1081。 0.95
Curran Associates, Inc., 2016. Curran Associates, Inc., 2016 0.71
[11] Adji Bousso Dieng, Dustin Tran, Rajesh Ranganath, John Paisley, and David Blei. 11]Adji Bousso Dieng, Dustin Tran, Rajesh Ranganath, John Paisley, David Blei。 0.68
Variational inference via \chi upper bound minimization. 上の上限最小化による変分推論。 0.66
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages 2732–2741. I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett, editors, Advances in Neural Information Processing Systems 30 pages 2732–2741。 0.96
Curran Associates, Inc., 2017. Curran Associates, Inc., 2017。 0.79
[12] Volodymyr Kuleshov and Stefano Ermon. 12]Volodymyr KuleshovとStefano Ermon。 0.68
Neural variational inference and learning in undirected graphical models. 無向グラフィカルモデルにおけるニューラル変分推論と学習 0.78
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30. I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 30。 0.95
Curran Associates, Inc., 2017. Curran Associates, Inc., 2017。 0.79
[13] Robert Bamler, Cheng Zhang, Manfred Opper, and Stephan Mandt. Robert Bamler氏、Cheng Zhang氏、Manfred Opper氏、Stephan Mandt氏。 0.61
Perturbative black box variational inference. 摂動性ブラックボックス変分推論。 0.66
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages 5079–5088. I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett, editors, Advances in Neural Information Processing Systems 30 pages 5079–5088。 0.97
Curran Associates, Inc., 2017. Curran Associates, Inc., 2017。 0.79
[14] Dilin Wang, Hao Liu, and Qiang Liu. [14]Dilin Wang、Hao Liu、Qiang Liu。 0.64
Variational inference with tail-adaptive f-divergence. 尾適応f偏差による変分推定 0.62
In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems 31, pages 5737–5747. S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, R. Garnett, editors, Advances in Neural Information Processing Systems 31, page 5737–5747。 0.93
Curran Associates, Inc., 2018. Curran Associates, Inc., 2018。 0.79
[15] Tomas Geffner and Justin Domke. Tomas Geffner氏とJustin Domke氏。 0.63
Empirical evaluation of biased methods for alpha divergence minimization. アルファ発散最小化のためのバイアス法の実験評価 0.84
In 3rd Symposium on Advances in Approximate Bayesian Inference, pages 1–12, 2020. 3rd Symposium on Advances in Approximate Bayesian Inference, page 1-12, 2020 0.78
[16] Tomas Geffner and Justin Domke. Tomas Geffner氏とJustin Domke氏。 0.62
On the difficulty of unbiased alpha divergence minimization. 非バイアスアルファ発散最小化の難しさについて 0.63
arXiv preprint arXiv:2010.09541, 2020. arXiv preprint arXiv:2010.09541, 2020 0.80
[17] Kamélia Daudel, Randal Douc, and François Portier. Kamélia Daudel氏、Randal Douc氏、François Portier氏。 0.52
Infinite-dimensional gradient-based descent 無限次元勾配に基づく降下 0.55
for alpha-divergence minimisation. alpha-divergence 最小化。 0.68
To appear in the Annals of Statistics, 2021. 2021年、Annals of Statisticsに登場。 0.61
[18] Kamélia Daudel, Randal Douc, and François Roueff. Kamélia Daudel, Randal Douc, and François Roueff. 0.60
Monotonic alpha-divergence minimisation. 単調アルファダイバージェンス最小化。 0.71
arXiv preprint arxiv:2103.05684, 2021. arXiv preprint arxiv:2103.05684, 2021 0.80
[19] Akash Kumar Dhaka, Alejandro Catalina, Manushi Welandawe, Michael Riis Andersen, Jonathan Huggins, and Aki Vehtari. [19]Akash Kumar Dhaka、Alejandro Catalina、Manushi Welandawe、Michael Riis Andersen、Jonathan Huggins、Aki Vehtari。
訳抜け防止モード: [19 ]Akash Kumar Dhaka, Alejandro Catalina, Manushi Welandawe, Michael Riis Andersen氏、Jonathan Huggins氏、Aki Vehtari氏。
0.82
Challenges and opportunities in high-dimensional variational inference. 高次元変分推論における挑戦と機会 0.77
arxiv preprint arxiv:2103.01085, 2021. arxiv preprint arxiv:2103.01085, 2021 0.79
[20] Arnaud Doucet, Nando Freitas, Kevin Murphy, and Stuart Russell. Arnaud Doucet氏、Nando Freitas氏、Kevin Murphy氏、Stuart Russell氏。 0.66
Sequential monte carlo 連続したモンテカルロ 0.64
methods in practice. 01 2013. 実践の方法です 01 2013. 0.75
[21] Andrzej Cichocki and Shun-ichi Amari. 21] andrzej cichocki、shune-ichi amari。 0.44
Families of alpha- beta- and gamma- divergences: α-β-およびガンマ-分岐の家族: 0.71
Flexible and robust measures of similarities. 類似性の柔軟で堅牢な尺度。 0.67
Entropy, 12(6):1532–1568, Jun 2010. エントロピー 12(6):1532–1568, Jun 2010 0.80
[22] Amir Beck and Marc Teboulle. 22] アミール・ベックと マーク・テボールル 0.49
Mirror descent and nonlinear projected subgradient methods for ミラー降下と非線形投影サブグレード法 0.77
convex optimization. Operations Research Letters, 31(3):167 – 175, 2003. 凸最適化。 運用研究レター, 31(3):167 – 175, 2003。 0.78
[23] Sébastien Bubeck. セバスチャン・ブベック(Sébastien Bubeck)。 0.65
Convex optimization: Algorithms and complexity. 凸最適化: アルゴリズムと複雑性。 0.77
Foundations and Trends® in Machine Learning, 8(3-4):231–357, 01 2015. 基礎とトレンド® In Machine Learning, 8(3-4):231–357, 01 2015 0.81
11 11 0.85
英語(論文から抽出)日本語訳スコア
A A.1 Equivalence between (1) and (2) with p(y) = p(y, D) A A.1 p(y) = p(y, D) による(1) と (2) の等価性 0.89
• Case α = 1 with f1(u) = 1 − u + u log(u) for all u > 0. • すべての u > 0 に対して f1(u) = 1 − u + u log(u) のとき α = 1 となる。 0.88
Then, D1(µK||P) = そしたら D1(μK||P) = 0.63
= = = p(y|D)ν(dy) = = = p(y|D)ν(dy) 0.88
(cid:90) (cid:90) (cid:90) (cid:90) (cid:90) (cid:90) (cid:90) (cid:90) 0.73
Y Y Y Y (cid:18) µk(y) Y Y Y Y (cid:18)μk(y) 0.85
p(y|D) f1 µk(y) log p(y|D) f1 μk(y)ログ 0.83
µk(y) log (cid:18) µk(y) μk(y)ログ (cid:18)μk(y) 0.85
f1 p(y, D) f1 p(y, D) 0.82
(cid:19) (cid:18) µk(y) (cid:18) µk(y) (cid:19) (cid:19) (cid:18) μk(y) (cid:18) μk(y) (cid:19) 0.80
p(y|D) p(y, D) p(y|D) p(y, D) 0.85
(cid:19) (cid:19) (cid:19)(cid:19) 0.73
ν(dy) + 0 ν(dy) + log p(D) ν(dy) + 0 ν(dy) + log p(D) 0.85
p(y, D)ν(dy) + 1 − p(D) + log p(D) p(y, D)ν(dy) + 1 − p(D) + log p(D) 0.85
Thus, arginf µ∈MD1(µK||P) = arginf µ∈MΨ1(µ; p) with p(y) = p(y, D) したがって arginf μψmd1(μk||p) = arginf μψmψ1(μ; p) with p(y) = p(y, d) 0.74
• Case α = 0 with f0(u) = u − 1 − log(u) for all u > 0. • すべての u > 0 に対して f0(u) = u − 1 − log(u) のとき α = 0 となる。 0.88
D0(µK||P) = D0(μK||P) = 0.64
= = = (cid:90) (cid:90) (cid:90) = = = (cid:90)(cid:90) 0.86
Y Y p(y|D) Y Y p(y|D) 0.85
(cid:19) (cid:18) µk(y) (cid:18) µk(y) (cid:19) (cid:19) (cid:18) µk(y) (cid:18) µk(y) (cid:19) (cid:18) μk(y) (cid:18) μk(y) (cid:19) (cid:19) (cid:18) μk(y) (cid:18) μk(y) 0.80
p(y|D) (cid:20)(cid:90) p(y|D) (cid:20)(cid:90) 0.79
p(y, D) f0 p(y, D) f0 0.82
− log − log Y 1 -ログ -ログ y1 0.71
p(D) Y f1 p(y, D) p(D) Y f1 p(y, D) 0.83
(cid:19) p(y|D)ν(dy) (cid:19) p(y|D)ν(dy) 0.87
p(y|D)ν(dy) p(y|D)ν(dy) 0.96
p(y|D)ν(dy) − log p(D) p(y|D)ν(dy) − log p(D) 0.96
p(y, D)ν(dy) + p(D) − 1 − p(D) log p(D) p(y, D)ν(dy) + p(D) − 1 − p(D) log p(D) 0.85
(cid:21) Thus (cid:21) したがって 0.74
arginf µ∈MD0(µK||P) = arginf µ∈MΨ0(µ; p) with p(y) = p(y, D) arginf μψmd0(μk||p) = arginf μψmψ0(μ; p) with p(y) = p(y, d) 0.77
• Case α ∈ R \ {1} with fα(u) = 1 • fα(u) = 1 の α ∈ R \ {1} の場合 0.86
α(α−1) [uα − 1 − α(u − 1)] for all u > 0. すべての u > 0 に対して α(α−1) [uα − 1 − α(u − 1)] 0.98
Dα(µK||P) (cid:90) (cid:90) Dα(μK||P) (cid:90)(cid:90) 0.66
Y Y = = fα Y Y = = fα 0.84
p(y|D)ν(dy) p(y|D)ν(dy) 0.96
p(y|D) 1 (cid:18) µk(y) (cid:90) (cid:90) p(y|D) 1 (cid:18) μk(y) (cid:90) (cid:90) 0.83
(cid:19) (cid:20)(cid:18) µk(y) (cid:18) µk(y) (cid:19) (cid:20)(cid:18) μk(y) (cid:18) μk(y) 0.80
p(y|D) 1 α(α − 1) p(y|D) 1 α(α − 1) 0.87
Y (cid:21) (cid:19)α − 1 (cid:20)(cid:18) µk(y) (cid:19) Y (cid:21) (cid:19)α − 1 (cid:20)(cid:18) μk(y) (cid:19) 0.82
p(y, D) α(α − 1) p(y, D) α(α − 1) 0.85
= p(D)α−1 = p(D)α−1 = p(D)α−1 = p(D)α−1 0.92
fα Thus, Y fα したがって Y 0.78
p(y|D)ν(dy) p(y|D)ν(dy) 0.96
(cid:19)α − 1 (cid:21) (cid:19)α − 1(cid:21) 0.84
p(y, D)ν(dy) + αp(D)α−1 + (1 − α)p(D)α − 1 p(y, D)ν(dy) + αp(D)α−1 + (1 − α)p(D)α − 1 0.94
p(D)α − 1 α(α − 1) p(D)α − 1 α(α − 1) 0.85
p(y, D) p(y, D)ν(dy) + p(y, D) p(y, D)ν(dy) + 0.85
α(α − 1) (10) α(α − 1) (10) 0.85
arginf µ∈MDα(µK||P) = arginf µ∈MΨα(µ; p) with p(y) = p(y, D) arginf μ(μK||P) = arginf μ(μ; p) with p(y) = p(y, D) 0.87
[17, Theorem 1] with Γ(v) = [(α − 1)v + 1]η/(1−α) [17, Theorem 1] with s(v) = [(α − 1)v + 1]η/(1−α) 0.90
A.2 Theorem 4 ([17, Theorem 1] with Γ(v) = [(α− 1)v + 1]η/(1−α)). A.2 Theorem 4 ([17, Theorem 1]) は、(v) = [(α− 1)v + 1]η/(1−α)) である。 0.93
Assume that p and k are as in (A1). p と k が (a1) に等しいと仮定する。 0.80
Let α ∈ R \ {1}, let κ be such that (α − 1)κ (cid:62) 0, let µ ∈ M1(T) and let η ∈ (0, 1] be such that α ∈ r \ {1} とすると、κ を (α − 1)κ (cid:62) 0 とし、μ ∈ m1(t) とし、η ∈ (0, 1] をそのようなものとする。 0.86
0 < µ(Γ(bµ,α + κ)) < ∞ holds and Ψα(µ) < ∞. 0 < μ(γ(bμ,α + κ)) < ∞ と ψα(μ) < ∞ が成り立つ。 0.90
Then, the two following assertions hold. そして次の2つの主張が成り立つ。 0.68
(11) 12 (11) 12 0.85
英語(論文から抽出)日本語訳スコア
(i) We have Ψα ◦ Iα(µ) (cid:54) Ψα(µ). (i) ψα は iα(μ) (cid:54) ψα(μ) である。 0.78
(ii) We have Ψα ◦ Iα(µ) = Ψα(µ) if and only if µ = Iα(µ). (ii) μ = iα(μ) であることと、μ = iα(μ) であることは同値である。 0.76
B B.1 Proof that (A2) is satisfied in Example 1 B B.1 例1で満たされる証明(A2) 0.82
Proof that (A2) is satisfied in Example 1. その証明 (A2) は例 1 で満たされる。 0.78
for all θ ∈ T We have kh(θ, y) = e−(cid:107)y−θ(cid:107)2/(2h2) and all y ∈ Y. すべての θ ∈ T に対して kh(θ, y) = e−(cid:107)y−θ(cid:107)2/(2h2) とすべての y ∈ Y が成り立つ。 0.79
Recall that by assumption T = B(0, r) ⊂ Rd with r > 0. r > 0 である t = b(0, r) の rd を仮定して考えるとよい。 0.79
Then, for all α ∈ [0, 1), we すると、すべての α ∈ [0, 1) に対して、 0.86
0.5 e−(cid:107)y−θ(cid:63) 0.5 e−(cid:107)y−θ(cid:63) 0.62
(2πh2)d/2 1 (cid:107)2/2 (2πh2)d/2 1 (cid:107)2/2 0.65
2 (cid:107)2/2 2 (cid:107)2/2 0.71
(2π)d/2 are interested in proving (cid:90) (2π)d/2 証明に興味があります (cid:90) 0.66
and Y and p(y) = c ×(cid:104) (2π)d/2 + 0.5 e−(cid:107)y−θ(cid:63) (cid:18) k(θ(cid:48), y) (cid:19)α−1 (cid:19)(cid:12)(cid :12)(cid:12)(cid:12) p(y)ν(dy) < ∞ . そして Y そして、p(y) = c ×(cid:104) (2π)d/2 + 0.5 e−(cid:107)y−θ(cid:63) (cid:18) k(θ(cid:48), y) (cid:19)α−1 (cid:19)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12) p(y)ν(dy) < ∞ である。 0.77
(cid:18) kh(θ, y) (cid:18)kh(θ, y) 0.97
(cid:12)(cid:12)(cid :12)(cid:12)log (cid:12)(cid:12)(cid :12)log 0.96
ν(dy) < ∞ p(y) ν(dy) < ∞ p(y) 0.85
p(y) sup θ∈T p(y) sup θ الt 0.67
k(θ, y) × sup θ(cid:48)∈T k(θ, y)× sup θ(cid:48)servlett 0.84
(cid:90) sup θ∈T (cid:90) sup θ الt 0.64
Y (cid:105) Y (cid:105) 0.82
(i) We start by proving (12). (i)まず証明(12)から始める。 0.63
First note that for all θ, θ(cid:48) ∈ T and for all y ∈ Y we can write まず、すべてのθ、θ(cid:48) ∈ T およびすべての y ∈ Y に対して書くことができることに注意。 0.77
kh(θ, y) kh(θ(cid:48), y) kh(θ, y) kh(θ(cid:48), y) 0.90
= e −(cid:107)y−θ(cid:107)2+(cid:107)y−θ(cid:48)(cid:107)2 =e −(cid:107)y−θ(cid:107)2+(cid:107)y−θ(cid:48)(cid:107)2 0.68
2h2 = e 2<y,θ−θ(cid:48)>−(cid:107)θ(cid:107)2+(cid:107)θ(cid:48)(cid:107)2 2h2 =e 2<y,θ−θ(cid:48)>−(cid:107)θ(cid:107)2+(cid:107)θ(cid:48)(cid:107)2 0.68
2h2 (cid:54) e from which we deduce that for all θ, θ(cid:48) ∈ T and for all y ∈ Y, 2h2 (cid:54) e から、すべての θ に対して θ(cid:48) ∈ t およびすべての y ∈ y に対してそのことを推定する。
訳抜け防止モード: 2h2 (cid:54 ) そこから すべての θ に対して θ(cid:48 ) ∈ T とすべての y ∈ Y に対して
0.74
(cid:54) e 2|<y,θ−θ(cid:48)>|+(cid:107)θ(cid:107)2+(cid:107)θ(cid:48)(cid:107)2 (cid:54)e 2|<y,θ−θ(cid:48)>|+(cid:107)θ(cid:107)2+(cid:107)θ(cid:48)(cid:107)2 0.75
2h2 (cid:107)y(cid:107)( cid:107)θ−θ(cid:48)(cid:107)+r2 2h2 (cid:107)y(cid:107)( cid:107)θ−θ(cid:48)(cid:107)+r2 0.63
h2 . sup θ∈T h2 . sup θ الt 0.71
k(θ, y) × sup θ(cid:48)∈T k(θ, y)× sup θ(cid:48)servlett 0.84
Y p(y) Additionally, Jensen’s inequality applied to the concave function u (cid:55)→ u1−α implies Y p(y) さらに、円錐函数 u (cid:55)→ u1−α に適用されるジェンセンの不等式は、 0.76
Y ν(dy) (cid:54) Y ν(dy) (cid:54) 0.90
k(θ, y)e h2 k(θ, y)e h2 0.82
(cid:107)y(cid:107)2 r+r2 (cid:107)y(cid:107)2 r+r2 0.62
sup θ(cid:48)∈T sup θ(cid:48)servlett 0.73
kh(θ, y) kh(θ(cid:48), y) kh(θ, y) kh(θ(cid:48), y) 0.90
(cid:54) e (cid:107)y(cid:107)2 r+r2 (cid:54)e (cid:107)y(cid:107)2 r+r2 0.69
h2 (cid:18) k(θ(cid:48), y) (cid:19)α−1 (cid:19)α−1 (cid:18) k(θ(cid:48), y) h2 (cid:18) k(θ(cid:48), y) (cid:19)α−1 (cid:19)α−1 (cid:18) k(θ(cid:48), y) 0.81
p(y) (cid:18) k(θ(cid:48), y) p(y) (cid:18)k(θ(cid:48), y) 0.90
(cid:19)α−1 (cid:19)α−1 0.65
and that (cid:90) (cid:90) それと (cid:90)(cid:90) 0.73
Y k(θ, y)e Y k(θ, y)e 0.85
(cid:107)y(cid:107)2 r+r2 (cid:107)y(cid:107)2 r+r2 0.62
h2 sup θ(cid:48)∈T h2 sup θ(cid:48)servlett 0.76
p(y) Now using (14), we can deduce p(y) さて (14) を使って推論できる 0.76
(cid:90) ν(dy) (cid:54) (cid:90) ν(dy) (cid:54) 0.86
(cid:54) k(θ, y)e (cid:54) k(θ, y)e 0.82
(cid:107)y(cid:107)2 r+r2 (1−α)h2 sup θ(cid:48)∈T (cid:107)y(cid:107)2 r+r2 (1−α)h2 sup θ(cid:48)servlett 0.65
p(y) k(θ(cid:48), y) p(y) k(θ(cid:48), y) 0.91
ν(dy) sup θ,θ(cid:48)∈T ν(dy) sup θ,θ(cid:48) ajaxt 0.81
kh(θ, y) kh(θ(cid:48), y) kh(θ, y) kh(θ(cid:48), y) 0.90
e (cid:107)y(cid:107)2 r+r2 (1−α)h2 p(y)ν(dy) E (cid:107)y(cid:107)2 r+r2(1−α)h2 p(y)ν(dy) 0.74
(12) (13) (14) (12) (13) (14) 0.85
ν(dy). (cid:19)1−α (cid:33)1−α ν(dy)。 (cid:19)1−α(cid:33)1−α 0.70
(cid:90) (cid:18)(cid:90) (cid:32)(cid:90) (cid:90) (cid:90) (cid:18)(cid:90) (cid:32)(cid:90) (cid:90) 0.75
Y Y Y sup θ,θ(cid:48)∈T Y Y Y sup θ,θ(cid:48) ajaxt 0.83
kh(θ, y) kh(θ(cid:48), y) kh(θ, y) kh(θ(cid:48), y) 0.90
(cid:107)y(cid:107)2 r+r2 (1−α)h2 p(y)ν(dy) (cid:54) (cid:107)y(cid:107)2 r+r2(1−α)h2 p(y)ν(dy) (cid:54) 0.76
e Y (cid:107)y(cid:107)2 r+r2 E Y (cid:107)y(cid:107)2 r+r2 0.73
h2 e (1+ 1 h2 E (1+ 1 0.81
1−α )p(y)ν(dy) < ∞ , 1−α )p(y)ν(dy) < ∞ , 0.97
which yields the desired result. 望ましい結果が得られます 0.62
(ii) We now prove (13). (ii)現在 (13) 証明中である。 0.75
For all y ∈ Y and all θ ∈ T, we have すべての y ∈ y とすべての θ ∈ t に対して、我々は 0.87
− supθ∈T e e− maxi∈{1,2} −supθ・T e-maxi・{1,2} 0.50
(cid:107)y−θ(cid:107)2 (cid:107)y−θ(cid:107)2 0.71
2h2 (cid:54) (2πh2)d/2kh(θ, y) (cid:54) 1 2h2 (cid:54) (2πh2)d/2kh(θ, y) (cid:54) 1 0.71
(cid:107)y−θ(cid:63) (cid:107)y−θ(cid:63) 0.67
i (cid:107)2 i (cid:107)2 0.88
2 (cid:54) c−1(2π)d/2p(y) (cid:54) 1 2 (cid:54) c−1(2π)d/2p(y) (cid:54) 1 0.79
13 13 0.85
英語(論文から抽出)日本語訳スコア
and we can deduce for all y ∈ Y and all θ ∈ T (cid:107)y − θ(cid:107)2 すべての y ∈ Y とすべての θ ∈ T (cid:107)y − θ(cid:107)2 に対して導出できる。 0.84
(cid:18) kh(θ, y) (cid:18)kh(θ, y) 0.97
(cid:12)(cid:12)(cid :12)(cid:12)log (cid:12)(cid:12)(cid :12)log 0.96
p(y) (cid:19)(cid:12)(cid :12)(cid:12)(cid:12) (cid:54) sup θ∈T (cid:54) ((cid:107)y(cid:107) + r)2 (cid:21) (cid:18) ((cid:107)y(cid:107) + r)2 (cid:20) 1 p(y) (cid:19)(cid:12)(cid :12)(cid:12)(cid:12) (cid:54) sup θ tasktopt (cid:54) ((cid:107)y(cid:107) + r)2 (cid:21) (cid:18) ((cid:107)y(cid:107) + r)2 (cid:20) 1 0.81
2 2 h2 + 1 2 2 h2 + 1 0.88
Since we have (cid:90) あったから (cid:90) 0.64
Y (cid:20) 1 Y (cid:20)1 0.82
h2 + 1 (cid:21) h2 + 1 (cid:21) 0.86
2h2 + max i∈{1,2} 2h2 + max iψ{1,2} 0.70
(cid:107)y − θ(cid:63) i (cid:107)2 2 (cid:107)y − θ(cid:63) i (cid:107)2 0.88
+ d| log h| + | log c| d| log h| + | log c| 0.89
+ d| log h| + | log c| . d| log h| + | log c| 。 0.87
(15) + d| log h| + | log c| (15) d| log h| + | log c| 0.87
p(y)ν(dy) < ∞ p(y)ν(dy) < ∞ 0.85
(cid:19) we deduce that (13) holds. (cid:19) 私たちはそれを (13) と推測する。 0.71
B.2 Proof of Theorem 2 We start with some preliminary results. B.2 定理の証明 2 予備的な結果から始める。 0.74
Let ζ, ζ(cid:48) ∈ M1(T). s(cid:48) ∈ m1(t) とする。 0.73
Recall that we say that ζRζ(cid:48) if and only if ζK = ζ(cid:48)K and that M1,ζ(T) denotes the set of probability measures dominated by ζ. Lemma 2. 言い換えると、 sr(cid:48) と sk = s(cid:48)k のときと m1,s(t) が s. lemma 2 に支配される確率測度の集合を表すときのみである。 0.66
Assume (A1). Let M be a convex subset of M1(T) and let ζ1, ζ2 ∈ M1(T) be such that a1)を仮定する。 M を M1(T) の凸部分集合とし、t1, t2 ∈ M1(T) を M1(T) とする。 0.71
Then, we have ζ1Rζ2. すると 1r2 となる。 0.51
Proof. For all y ∈ Y, set uy = ζ1k(y)/p(y) and vy = ζ2k(y)/p(y). 証明。 すべての y ∈ Y に対して、集合 uy = >1k(y)/p(y) と vy = >2k(y)/p(y) が成立する。 0.68
Then, for all y ∈ Y and for all t ∈ (0, 1), fα(tuy + (1 − t)vy) (cid:54) tfα(uy) + (1 − t)fα(vy) by convexity of fα and we obtain すると、すべての y ∈ Y とすべての t ∈ (0, 1) に対して fα(tuy + (1 − t)vy) (cid:54) tfα(uy) + (1 − t)fα(vy) が fα の凸性によって得られる。 0.90
Ψα(ζ1) = Ψα(ζ2) = inf ζ∈M 一、二、二、二、二、二、二、二、二。 0.20
Ψα(ζ). Ψα(tζ1 + (1 − t)ζ2) (cid:54) tΨα(ζ1) + (1 − t)Ψα(ζ2) = inf ζ∈M Ψα(ζ). ψα(t)1 + (1 − t)′2) (cid:54) tψα(i1) + (1 − t)ψα(i) = inf が成立する。 0.87
Ψα(ζ) . (16) Ψα(ζ) . (16) 0.92
Furthermore, tζ1 + (1 − t)ζ2 ∈ M which implies that we have equality in (16). さらに t = 1 + (1 − t) =2 ∈ M であり、これは (16 で等しいことを意味する。 0.76
Consequently, for all t ∈ (0, 1) : したがって、すべての t ∈ (0, 1) : 0.88
[tfα(uy) + (1 − t)fα(vy) − fα(tuy + (1 − t)vy)] [tfα(uy) + (1 − t)fα(vy) − fα(tuy + (1 − t)vy)] 0.91
p(y)ν(dy) = 0 . p(y)ν(dy) = 0 である。 0.90
(cid:123)(cid:122) (cid:123)(cid:122) 0.75
(cid:62)0 (cid:62)0。 0.69
(cid:125) (cid:90) (cid:125) (cid:90) 0.78
(cid:124) Y (cid:124) Y 0.82
Now using that fα is strictly convex, we deduce that for p-almost all y ∈ Y, ζ1k(y) = ζ2k(y) that is ζ1Rζ. この fα は厳密な凸であるので、ほとんどすべての y ∈ Y に対し、y1k(y) = y2k(y) である。 0.74
Lemma 3. Assume (A1). 第3弾。 a1)を仮定する。 0.64
Let α ∈ R \ {1}, let κ be such that (α − 1)κ (cid:62) 0 and let µ(cid:63) ∈ M1(T) be a fixed point of Iα. α ∈ r \ {1} とすると、κ を (α − 1)κ (cid:62) 0 とし、μ(cid:63) ∈ m1(t) を iα の不動点とする。 0.89
Then, Ψα(µ(cid:63)) = そしたら ψα(μ(cid:63)) = 0.75
inf ζ∈M1,µ(cid:63) (T) inf m1,μ(cid:63) (t) である。 0.70
Ψα(ζ) . (17) Ψα(ζ) . (17) 0.92
Furthermore, for all ζ ∈ M1,µ(cid:63) (T), Ψα(µ(cid:63)) = Ψα(ζ) implies that µ(cid:63)Rζ. さらに、すべての s ∈ m1,μ(cid:63) (t) に対して、 ψα(μ(cid:63)) = ψα(\) は μ(cid:63)r を意味する。 0.77
Proof. Let ζ ∈ M1,µ(cid:63) (T) be such that Ψα(ζ) (cid:54) Ψα(µ(cid:63)). 証明。 M1,μ(cid:63) (T) {\displaystyle M1,μ(cid:63) (T) を、 (cid:54) >α(μ(cid:63)) とする。 0.64
We have that (18) Furthermore, since µ(cid:63) is a fixed point of Iα, Γ(bµ(cid:63),α + κ), hence |bµ(cid:63),α + κ + 1/(α− 1)| is µ(cid:63)-almost all constant. 我々には さらに、μ(cid:63) は iα の不動点であるため、γ(bμ(cid:63),α + κ) であるため |bμ(cid:63),α + κ + 1/(α− 1)| は μ(cid:63)-almost all constant となる。 0.76
In addition, bµ(cid:63),α + κ + 1/(α − 1) is of constant sign by assumption on κ. さらに、bμ(cid:63), α + κ + 1/(α − 1) は κ 上の仮定による定数符号である。 0.90
Since ζ (cid:22) µ(cid:63), we thus deduce that (cid:22) μ(cid:63) であることから、私たちはそれを推測する。 0.58
ζ (bµ(cid:63),α − µ(cid:63)(bµ(cid:63),α)) (cid:54) Ψα(ζ) − Ψα(µ(cid:63)) (cid:54) 0 . (bμ(cid:63),α − μ(cid:63)(bμ(cid:63),α) (cid:54) ψα(\) − ψα(μ(cid:63)) (cid:54) 0 である。 0.84
ζ (bµ(cid:63),α − µ(cid:63)(bµ(cid:63),α)) = 0 . bμ(cid:63), α − μ(cid:63)(bμ(cid:63), α) = 0 である。 0.90
Combining this result with (18) yields Ψα(ζ) = Ψα(µ(cid:63)) and we recover (17). この結果と18) を組み合わせると ψα(\) = ψα(μ(cid:63)) となり、17) が回復する。 0.76
Finally, assume there exists ζ ∈ M1,µ(cid:63) (T) such that Ψα(µ(cid:63)) = Ψα(ζ). 最後に、m1,μ(cid:63) (t) が存在して ψα(μ(cid:63)) = ψα() となると仮定する。 0.74
Then, since M1,µ(cid:63) (T) is a convex set, we have by Lemma 2 that µ(cid:63)Rζ. すると、M1,μ(cid:63) (T) は凸集合であるため、μ(cid:63)R は Lemma 2 によって成り立つ。 0.79
14 14 0.85
英語(論文から抽出)日本語訳スコア
We now move on to the proof of Theorem 2. 現在、我々は Theorem 2 の証明に移行している。 0.83
Proof of Theorem 2. For convenience, we define the notation Ψα,Θ(λ) := Ψα (µλ,Θ) for all λ ∈ SJ. 定理2の証明。 便宜上、すべての λ ∈ SJ に対して、記法 >α, >(λ) := >α (μλ, >) を定義する。 0.71
In this proof, we will use the equivalence relation R defined by: ζRζ(cid:48) if and only if ζK = ζ(cid:48)K and we write M1,ζ(T) the set of probability measures dominated by ζ. この証明において、r が同値関係 r を次のように定義する: sr(cid:48) であることと sk = s(cid:48)k であることは同値関係 r であり、m1,s(t) を s が支配する確率測度の集合と書く。
訳抜け防止モード: この証明では、次のように定義される同値関係 R を用いる。 そして、sK = s(cid:48)K と M1, s(T ) を s に支配される確率測度の集合と書けばよい。
0.71
(i) Any possible limit of convergent subsequence of (λn)n∈N(cid:63) is a fixed point of I mixt First note that by (A3), we have that |Ψα,Θ(λ)| < ∞ and that (11) is satisfied for all µλ,Θ such that λ ∈ SJ. (i) (λn)nhtmln(cid:63) の収束部分列の任意の極限は、(a3) によって |ψα,θ(λ)| < ∞ が成立し、(11) がすべての μλ,θ に対して λ ∈ sj が満たされるような i mixt の不動点である。 0.85
This means that the sequence (λn)n∈N(cid:63) defined by (5) is well-defined, that the sequence (Ψα,Θ(λn))n∈N(cid:63) is lower-bounded and that Ψα,Θ(λn) is finite for all n ∈ N(cid:63). つまり、(5) で定義される列 (λn)n~N(cid:63) は well-defined であり、すべての n ∈ N(cid:63) に対して、列 (>α, >(λn))n~N(cid:63) は下界であり、 >α, >(λn) は有限である。 0.70
As (Ψα,Θ(λn))n∈N(cid:63) is nonincreasing by Theorem 4-(i), it converges in R and in particular we have (ψα,θ(λn))nhtmln(cid:63) が定理 4-(i) によって非開であることから、r に収束し、特に我々が持つ。
訳抜け防止モード: また、( )α, )(λn))n(cid:63 ) は定理 4-(i ) によって非増加する。 Rに収束し 特に
0.76
α . n→∞ Ψα,Θ ◦ I mixt α . n→∞ ψα,θ , i mixt 0.84
lim α (λn) − Ψα,Θ(λn) = 0 . リム α (λn) − εα, λn) = 0。 0.70
Let (λϕ(n))n∈N(cid:63) be a convergent subsequence of (λn)n∈N(cid:63) and denote by ¯λ its limit. λ φ(n))nhtmln(cid:63) を (λn)nhtmln(cid:63) の収束部分列とし、その極限を λ で表す。 0.78
Since the function λ (cid:55)→ Ψα,Θ ◦I mixt ( ¯λ) = Ψα,Θ( ¯λ) and hence by Theorem 4-(ii), ¯λ is a fixed point of I mixt 函数 λ (cid:55)→ ψα,θ,θ,i mixt (\λ) = ψα,θ(\λ) であり、したがって定理 4-(ii) により、λ は i mixt の不動点である。 0.80
(λ)− Ψα,Θ(λ) is continuous we obtain that Ψα,Θ ◦I mixt (λ)− ψα,θ(λ) が連続であるので、ψα,θ,θ,i の混合が得られる。 0.63
α α . (ii) The set F =(cid:8)λ ∈ SJ : λ = I mixt α α . (ii)集合 f = (cid:8)λ ∈ sj : λ = i mixt 0.84
For any subset R ⊂ {1, . 任意の部分集合 R は {1, である。 0.65
. . , J}, define . . , J} の定義 0.83
α (λ)(cid:9) of fixed points of I mixt α (λ)(cid:9) of fixed point of I mixt 0.91
α α is finite. and write α α 有限です 書きます 0.70
F = SJ,R = {λ ∈ SJ : ∀i ∈ Rc, λi = 0,∀j ∈ Rc, λj (cid:54)= 0} , ˜SJ,R = {λ ∈ SJ : ∀i ∈ Rc, λi = 0} , F = SJ,R = {λ ∈ SJ : ρi ∈ Rc, λi = 0, λi ∈ Rc, λj (cid:54)= 0} , λSJ,R = {λ ∈ SJ : λi ∈ Rc, λi = 0} である。 0.87
(cid:91) (SJ,R ∩ F ) . (cid:91) (SJ,R,F)。 0.71
R⊂{1,...,J} R {1,...,J} 0.62
In order to show that F is finite, we prove by contradiction that for any R ⊂ {1, . F が有限であることを示すために、任意の R > {1, に対して矛盾して証明する。 0.68
. . , J}, SJ,R ∩ F contains at most one element. . . , J}, SJ,R > F は少なくとも1つの元を含む。 0.80
Assume indeed the existence of two distinct elements λ (cid:54)= λ(cid:48) belonging to SJ,R ∩ F . 実際、2つの異なる元 λ (cid:54)= λ(cid:48) の存在が sj,r,f に属すると仮定する。 0.69
Since M1,µλ,Θ(T) = M1,µλ(cid:48) ,Θ m1,μλ,θ(t) = m1,μλ(cid:48) ,θ 0.84
(cid:110) µλ(cid:48)(cid:48),Θ : λ(cid:48)(cid:48) ∈ ˜SJ,R (cid:110) μλ(cid:48)(cid:48) > : λ(cid:48)(cid:48) ∈ >SJ,R 0.79
, Lemma 3 implies that , Lemma 3 は意味する。 0.80
(T) = (cid:111) (cid:0)λ(cid:48)(cid:48)(cid :1) = Ψα,Θ(λ(cid:48)) . (T)= (cid:111) (cid:0)λ(cid:48)(cid:48)(cid :1) = λα, λ(cid:48))。 0.77
Ψα,Θ(λ) = inf ψα,θ(λ) = inf 0.92
Ψα,Θ λ(cid:48)(cid:48)∈ ˜SJ,R Ψα,Θ λ(cid:48)(cid:48)公開されている。 0.73
(cid:80)J Applying again Lemma 3, we get µλ,ΘRµλ(cid:48),Θ, that is, µλ,ΘK = µλ(cid:48),ΘK. (cid:80)J 再び Lemma 3 を適用すれば μλ,\Rμλ(cid:48)、つまり μλ,\K = μλ(cid:48) が得られる。 0.85
This means that j=1(λj − λ(cid:48) j)K(θj,·) is the null measure, which in turns implies the identity λ = λ(cid:48) since the family of measures {K(θ1,·), . これは j=1(λj − λ(cid:48) j)K(θj,·) がヌル測度であることを意味する。
訳抜け防止モード: これは j=1(λj − λ(cid:48 ) j)K(θj, · ) が零測度であることを意味する。 これは測度 {K(θ1, · ) の族から λ = λ(cid:48 ) となる。
0.82
. . , K(θJ ,·)} is assumed to be linearly independent. . . , K(θJ ,·)} は線型独立であると仮定される。 0.84
(iii) Conclusion. According to Lemma 2 applied to the convex subset of measures M = SJ, the function Ψα,Θ attains its global infimum at a unique λ(cid:63) ∈ SJ. (iii)結論。 測度 M = SJ の凸部分集合に適用されたLemma 2 によれば、関数は、一意な λ(cid:63) ∈ SJ で大域不等式を得る。 0.75
The uniqueness of λ(cid:63) actually follows from the fact that, as shown above, µλ,ΘRµλ(cid:48),Θ if and only if λ = λ(cid:48). λ(cid:63) の特異性は、上述したように μλ, = Rμλ(cid:48) が λ = λ(cid:48) である場合にのみ従う。 0.90
Then, by Theorem 4-(i) and by definition of λ(cid:63) そして、定理 4-(i) と λ(cid:63) の定義により、 0.84
α Ψα,Θ ◦ I mixt and hence, Ψα,Θ ◦ I mixt is finite, there exists L (cid:62) 1 such that F = λ(cid:96) : 1 (cid:54) (cid:96) (cid:54) L loss of generality, we set λ1 = λ(cid:63) to simplify the notation. α f = λ(cid:96) : 1 (cid:54) (cid:96) (cid:54) l 一般性が失われると、λ1 = λ(cid:63) とすると、表記を単純化するために λ1 = λ(cid:63) が設定される。
訳抜け防止モード: α したがって、Imixt は有限である。 L ( cid:62 ) 1 が存在して F = λ(cid:96 ) : 1 ( cid:54 ) ( cid:96 ) ( cid:54 ) L の一般性を失う。 表記を単純化するために λ1 = λ(cid:63 ) を設定した。
0.84
We now introduce a sequence (W(cid:96))1(cid:54) (cid:96)(cid:54)L of disjoint open neighborhoods of (λ(cid:96))1(cid:54)(c id:96)(cid:54)L such that for any (cid:96) ∈ {1, . 現在、任意の (cid:96) ∈ {1, に対して (λ(cid:96)))1(cid:96)( cid:54)l の不連続開近傍の列 (w(cid:54)(cid:96)(c id:54)l を導入する。 0.87
. . , L}, (λ(cid:63)) (cid:54) Ψα,Θ(λ(cid:63)) = inf λ(cid:48)∈SJ (λ(cid:63)) = Ψα,Θ(λ(cid:63)), showing that λ(cid:63) ∈ F by Theorem 4-(ii). . . , L。 (λ(cid:63)) (cid:54) > > > λ(cid:63)) = inf λ(cid:48)⋅SJ(λ(cid:63)) = λα, >(λ(cid:63)) は、定理 4-(ii) による λ(cid:63) ∈ F を示す。 0.78
Since by (ii), F , where for i (cid:54)= j, λi (cid:54)= λj. i (cid:54) = j に対して、λi (cid:54) = λj である。 0.69
Without any ) (cid:54) Ψα,Θ ◦ I mixt なしでは ) (cid:54) ψα,θ,i mixt 0.78
Ψα,Θ(λ (λ(cid:63)) , Ψα,Θ(λ (λ(cid:63)) 0.91
(cid:110) α (cid:110) α 0.82
α (cid:48) α (cid:48) 0.82
I mixt α (W(cid:96)) ∩ 私は混ざり合う α (W(cid:96)) 0.76
Wj (19) (cid:111)  = ∅ Wj (19) (cid:111) ] = ] である。 0.75
(cid:91) は (cid:91) 0.73
j(cid:54)=(cid:96) j(cid:54)=(cid:96) 0.81
15 15 0.85
英語(論文から抽出)日本語訳スコア
α (λ(cid:96)) = λ(cid:96) and λ (cid:55)→ I mixt α (λ(cid:96)) = λ(cid:96) と λ(cid:55)→ Imixt 0.88
there exists N > 0 such that for all n (cid:62) N, λn ∈(cid:83) すべての n (cid:62) N, λn ∈ (cid:83) に対して N > 0 が存在する 0.78
This is possible since I mixt By (i) , the set F contains all the possible limits of any subsequence of (λn)n∈N(cid:63). これは i を (i) で混合するので、集合 f は (λn)n الn(cid:63) の任意の部分列のすべての可能な極限を含む。 0.68
As a consequence, 1(cid:54)(cid:96)(ci d:54)L W(cid:96). その結果、1(cid:54)(cid:96)(ci d:54)L W(cid:96)となる。 0.74
Combining with (19), there exists (cid:96) ∈ {1, . (19) と組み合わさって (cid:96) ∈ {1, が存在する。 0.84
. . , L} such that for all n (cid:62) N, λn ∈ W(cid:96). . . したがって、すべての n (cid:62) n に対して λn ∈ w(cid:96) となる。 0.81
Therefore λ(cid:96) is the only possible limit of any convergent subsequence of (λn)n∈N(cid:63) and as a consequence, limn→∞ λn = λ(cid:96). したがって λ(cid:96) は (λn)n~N(cid:63) の任意の収束部分列の唯一の極限であり、その結果 limn →∞ λn = λ(cid:96) となる。 0.75
Thus, the sequence (µλn,Θ)n∈N(cid:63) weakly converges to µλ(cid:96),Θ as n → ∞ and Theorem 1 can be applied. したがって、列 (μλn,θ)nhtmln(cid:63) は弱収束して μλ(cid:96),θ as n → ∞ となり、定理 1 が適用できる。 0.70
Since λ1 ∈ S + and Theorem 1-(iii) then shows that J , we have M1,µλ1,Θ(T) = µλ(cid:96),Θ is the global arginf of Ψα over all and λ1 ∈ s + and theorem 1-(iii) から、j , m1,μλ1,θ(t) = μλ(cid:96),θ は ψα の全体アルギンフである。 0.78
(cid:110) (cid:111) (cid:110) (cid:111) µλ(cid:48),Θ : λ(cid:48) ∈ SJ µλ(cid:48),Θ : λ(cid:48) ∈ SJ (cid:110) (cid:110) (cid:110) (cid:111) μλ(cid:48) > : λ(cid:48) ∈ SJ μλ(cid:48) > : λ(cid:48) ∈ SJ 0.82
. Therefore, (cid:96) = 1, i.e., λ(cid:96) = λ1 = λ(cid:63) . したがって (cid:96) = 1, すなわち λ(cid:96) = λ1 = λ(cid:63) 0.87
(λ) is continuous. (λ) は連続である。 0.84
α Ψα,Θ(λ(cid:63)) = inf λ(cid:48)∈SJ α ψα,θ(λ(cid:63)) = inf λ(cid:48)ftpsj 0.85
Ψα,Θ(λ (cid:48) Ψα,Θ(λ (cid:48) 0.89
) . B.3 The Power Descent for mixture models: practical version ) . b.3 混合モデルのパワー降下:実用版 0.83
The algorithm below provides one possible approximated version of the Power Descent algorithm, where we have set Γ(v) = [(α − 1)v + 1] 下記のアルゴリズムは、γ(v) = [(α − 1)v + 1] を満たすパワー降下アルゴリズムの1つの近似バージョンを提供する。 0.74
1−α with η ∈ (0, 1]. 1−α with η ∈ (0, 1]. 0.93
η Algorithm 3: Practical version of the Power Descent for mixture models Input: p: measurable positive function, K: Markov transition kernel, M: number of samples, Θ = {θ1, . η アルゴリズム3: 混合モデルに対するPower Descentの実用版 入力: p: 可測正の関数、K: マルコフ遷移核、M: サンプル数、s = {θ1, 0.78
. . , θJ} ⊂ T: parameter set, Γ(v) = [(α − 1)v + 1] 1−α with η ∈ (0, 1], N: total number of iterations. . . γ(v) = [(α − 1)v + 1] 1−α η ∈ (0, 1], n: 反復の総数。
訳抜け防止モード: . . ,θJ } > T : パラメータ集合, >(v ) = [ ( α − 1)v + 1 ] 1−α かつ η ∈ (0, 1 ] である。 N: イテレーションの総数。
0.85
Output: Optimised weights λ. 出力:最適化重量λ。 0.88
Set λ = [λ1,1, . λ = [λ1,1, ] とする。 0.59
. . , λJ,1]. . . λJ,1]。 0.84
for n = 1 . n = 1 の場合。 0.87
. . N do η . . N do η 0.85
Sampling step : Draw independently M samples Y1, . サンプリングステップ:独立したMサンプルY1, 。 0.88
. . , YM from µλ,Θk. . . , μλ,θkからym。 0.81
Expectation step : Compute Bλ = (bj)1(cid:54)j(cid:5 4)J where for all j = 1 . 期待段階:計算 Bλ = (bj)1(cid:54)j(cid:5 4)J ここですべての j = 1 となる。 0.80
. . J M(cid:88) . . J m(cid:88) 0.83
(cid:18) µλ,Θk(Ym) (出典:18)μλ,/k(Ym) 0.78
(cid:19) p(Ym) (cid:19) p(Ym) 0.82
j=1 λjΓ(bj + κ). j = 1 λj (bj + κ)。 0.82
and deduce W λ = (λjΓ(bj + κ))1(cid:54)j(cid:54) J and wλ =(cid:80)J w λ = (λjγ(bj + κ))1(cid:54)j(cid:54) j and wλ =(cid:80)j 0.89
m=1 bj = 1 M m=1。 bj = 1M 0.69
k(θj, Ym) µλ,Θk(Ym) k(θj, Ym) μλ,\k(Ym) 0.97
f(cid:48) α f(cid:48) α 0.85
Iteration step : Set 反復ステップ : set 0.70
λ ← 1 wλ W λ λ = 1 wλ W λ 0.81
C C.1 Proof of Proposition 1 C C.1 命題1の証明 0.76
We first state (D1), which summarises the necessary convergence and differentiability assumptions needed in the proof of proposition 1. 最初の状態 (d1) は命題 1 の証明に必要な収束と微分可能性の仮定をまとめたものである。 0.73
(D1) (i) we have sup θ∈T (D1) (i) sup θ الt 0.60
k(θ, y) × sup θ(cid:48)∈T k(θ, y)× sup θ(cid:48)servlett 0.84
Y ν(dy) < ∞; Y ν(dy) < ∞; 0.80
(cid:90) (cid:16) k(θ(cid:48),y) (cid:90) (cid:16)k(θ(cid:48),y) 0.87
(cid:17)α−1 (cid:17)α−1 0.65
p(y) 16 p(y) 16 0.85
英語(論文から抽出)日本語訳スコア
(α − 1)(bµ,α(θ) + κ) + 1 = lim α→1 Then, using (D1)-(ii) we have that for all θ ∈ T, (α − 1)(bμ,α(θ) + κ) + 1 = lim α→1 そして、 (D1)-(ii) を用いて、すべての θ ∈ T に対してそれを持つ。 0.95
lim α→1 [(α − 1)(bµ,α(θ) + κ) + 1] lim α→1 [(α − 1)(bµ,α(θ) + κ) + 1] 0.76
η 1−α = exp η 1α = exp 0.82
lim α→1 = exp lim α→1 =exp 0.72
= exp (cid:90) =exp (cid:90) 0.76
lim α→1 (cid:18)  lim (cid:20) (cid:90) lim α→1 (cid:18) lim (cid:20) (cid:90) 0.76
α→1 −η (cid:16) α→1 −η (cid:16) 0.72
lim α→1 µ Thus, lim α→1 µ したがって 0.76
(cid:17) (cid:18) (cid:17) (cid:18) 0.78
(cid:90) Y (cid:90) Y 0.82
Y (cid:20) Y (cid:20) 0.82
−η −η(cid:82) -η-η(cid:82) 0.63
(cid:90) (cid:18) µk(y) (cid:90) (cid:18)μk(y) 0.81
(cid:19)α−1 (cid:19)α−1 0.65
k(θ, y) Y p(y) k(θ, y) Y p(y) 0.85
ν(dy) + 0 = 1 . ν(dy) + 0 = 1 . 0.85
log [(α − 1)(bµ,α(θ) + κ) + 1] log [(α − 1)(bμ,α(θ) + κ) + 1] 0.85
(cid:82) −η (cid:82) −η 0.78
−η (cid:82) −η (cid:82) 0.78
Y k(θ, y) Y k(θ, y) Y k(θ, y) Y k(θ, y) 0.85
k(θ, y) log k(θ, y) ログ 0.69
log p(y) α − 1 ログ p(y) α − 1 0.81
(cid:17)α−1 (cid:16) µk(y) (cid:16) µk(y) (cid:17)α−1 (cid:18) µk(y) (cid:19) (cid:18) µk(y) (cid:17)α−1 (cid:16) μk(y) (cid:16) μk(y) (cid:17)α−1 (cid:18) μk(y) (cid:19) (cid:18) μk(y) 0.76
(cid:19) p(y) (cid:19) p(y) 0.82
p(y) ν(dy) p(y) ν(dy) 0.85
p(y) (cid:17) p(y) (cid:17) 0.82
ν(dy) + κ  ν(dy) + κ  0.85
ν(dy) + (α − 1)κ exp (−ηκ) ν(dy) + (α − 1)κ exp (−ηκ) 0.96
(cid:19) (cid:16) µk(y) (cid:21) (cid:19) (cid:16) μk(y) (cid:21) 0.78
p(y) (cid:21)(cid:19) p(y) (cid:21)(cid:19) 0.80
(ii) we have (iii) we have (ii) (iii) 0.43
(cid:90) (cid:90) (cid:90)(cid:90) 0.74
Y Y sup θ∈T Y Y sup θ الt 0.73
inf θ∈T inf θ الt である。 0.28
k(θ, y) × sup θ(cid:48)∈T k(θ, y) × inf θ(cid:48)∈T k(θ, y) × sup θ(cid:48)・T k(θ, y) × inf θ(cid:48)・T 0.88
(cid:17)(cid:12)(cid :12)(cid:12) × sup (cid:12)(cid:12)(cid :12)log (cid:16) k(θ(cid:48),y) (cid:17)α−1 (cid:16) k(θ(cid:48),y) (cid:17)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)log (cid:16) k(θ(cid:48),y) (cid:17)α−1 (cid:16) k(θ(cid:48)y) 0.82
p(y) θ(cid:48)(cid:48)∈T p(y) θ(cid:48)(cid:48)serv lett 0.75
ν(dy) > 0. ν(dy) > 0 である。 0.83
p(y) (cid:16) k(θ(cid:48)(cid:48),y) p(y) (cid:16)k(θ(cid:48)(cid:48),y) 0.87
(cid:17)α−1 (cid:17)α−1 0.65
p(y) ν(dy) < ∞; p(y) ν(dy) < ∞; 0.80
Note that these assumptions are mild if we assume that T is a compact metric space, which is generally the case. これらの仮定は、T がコンパクトな計量空間であると仮定すれば穏やかである。 0.61
Assumption (D1)-(iii) is only required when α > 1 to ensure that the quantity [(α − 1)(bµ,α + κ) + 1] 1−α is bounded from above. 仮定 (D1)-(iii) は、[(α − 1)(bμ,α + κ) + 1] 1−α が上から有界であることを保証するために α > 1 のときのみ必要である。 0.86
This assumption could also be replaced by the assumption that κ is such that (α − 1)κ > 0. この仮定は、κ が (α − 1)κ > 0 であるという仮定に置き換えることもできる。 0.80
η Proof of proposition 1. For all θ ∈ T, the Dominated Convergence Theorem and (D1)-(i) yield η 命題1の証明。 すべての θ ∈ t に対して、支配的収束定理と (d1)-(i) の収率 0.72
In addition, by the Dominated Convergence Theorem (and (D1)-(iii) when α > 1), we have 加えて、支配的な収束定理(および α > 1 のとき (d1)-(iii))により、 0.69
[(α − 1)(bµ,α + κ) + 1] [(α − 1)(bµ,α + κ) + 1] 0.80
η 1−α = µ exp η 1−α = µ exp 0.78
k(·, y) log k(·, y) ログ 0.53
ν(dy) exp (−ηκ) . ν(dy) exp (−ηκ)。 0.80
[Iα(µ)](h) = [Iα(μ)](h) = 0.85
lim α→1 µ(dθ)h(θ)e lim α→1 μ(dθ)h(θ)e 0.82
(cid:16) −η(cid:82) (cid:16) -η(cid:82) 0.74
T µ e Y k(θ,y) log( µk(y) T µ E y k(θ,y) log(μk(y)) 0.84
p(y) )ν(dy) p(y) )ν(dy) 0.85
p(y) )ν(dy)(cid:17) p(y) )ν(dy)(cid:17) 0.98
Y k(·,y) log( µk(y) y k(·,y) log(μk(y)) 0.80
= [I1(µ)](h) . = [i1(μ)](h) である。 0.85
C.2 Derivation of the update formula for the Renyi Descent For all α ∈ R \ {0, 1} and κ such that (α − 1)κ (cid:62) 0, we are interested applying the Entropic Mirror Descent algorithm to the following objective function C.2 Renyi Descent に対する更新公式の導出 すべての α ∈ R \ {0, 1} と κ に対して (α − 1)κ (cid:62) 0 となるように、エントロピーミラー蛍光アルゴリズムを次の目的関数に適用することに興味がある。 0.86
(cid:19) ΨAR (cid:19) ψar 0.58
α (µ) := 1 α (µ) := 1 0.79
α(α − 1) log α(α − 1) ログ 0.78
µk(y)αp(y)1−αν(dy) + (α − 1)κ μk(y)αp(y)1−αν(dy) + (α − 1)κ 0.94
Lemma 4. Assume (A1). 第4回。 a1)を仮定する。 0.62
The gradient of ΨAR Proof. ψar の勾配 証明。 0.57
Let ε > 0 be small and let µ, µ(cid:48) ∈ M1(T). ε > 0 を小さくして μ, μ(cid:48) ∈ M1(T) とする。 0.90
Then, α (µ) is given by θ (cid:55)→ bµ,α(θ)+1/(α−1) (cid:19) そしたら α(μ) は θ (cid:55)→ bμ,α(θ)+1/(α−1) (cid:19) によって与えられる 0.70
(α−1)(µ(bµ,α)+κ)+1 . (α−1)(μ(bμ,α)+κ)+1。 0.79
[(µ + εµ(cid:48))k(y)]αp(y)1−αν(dy) + (α − 1)κ [(µ + εµ(cid:48))k(y)]αp(y)1−αν(dy) + (α − 1)κ 0.94
α (µ + εµ(cid:48)) = ΨAR α(μ + εμ(cid:48)) = ψar 0.84
= 1 α(α − 1) = 1 α(α − 1) 0.85
1 α(α − 1) 1 α(α − 1) 0.85
log log (cid:18)(cid:90) (cid:18)(cid:90) ログ ログ (cid:18)(cid:90)(cid :18)(cid:90) 0.72
Y Y µk(y)α Y Y μk(y)α 0.90
p(y)1−αν(dy) + (α − 1)κ + o(ε) p(y)1−αν(dy) + (α − 1)κ + o(ε) 0.97
(cid:19) (cid:18)(cid:90) (cid:19) (cid:18)(cid:90) 0.77
Y (cid:20) Y (cid:20) 0.82
(cid:21) µ(cid:48)k(y) µk(y) (cid:21) μ(cid:48)k(y)μk(y) 0.86
1 + αε 17 1 + αε 17 0.90
英語(論文から抽出)日本語訳スコア
α (µ + εµ(cid:48)) = ΨAR ΨAR α(μ + εμ(cid:48)) = ψar ψar 0.76
α (µ) + 1 α(α − 1) α (µ) + 1 α(α − 1) 0.80
where we used that (1 + u)α = 1 + αu + o(u) as u → 0. ここで、(1 + u)α = 1 + αu + o(u) を u → 0 として使った。 0.88
Thus, log 1 + αε (cid:82) (cid:82) Y µ(cid:48)k(y) Y µk(y)αp(y)1−αν(dy) + (α − 1)κ (cid:17)α−1 (cid:16) µk(y) したがって ログ 1 + αε (cid:82) (cid:82) Y μ(cid:48)k(y) Y μk(y)αp(y)1−αν(dy) + (α − 1)κ (cid:17)α−1 (cid:16)μk(y) 0.76
(cid:16) µk(y) (cid:16)μk(y) 0.83
(cid:17)α−1 (cid:17)α−1 0.65
ν(dy) Y µ(cid:48)k(y) ν(dy) Y μ(cid:48)k(y) 0.92
(cid:82) Y µk(y)αp(y)1−αν(dy) + (α − 1)κ µ(bµ,α) + κ + 1/(α − 1) (cid:82) Y μk(y)αp(y)1−αν(dy) + (α − 1)κ μ(bμ,α) + κ + 1/(α − 1) 0.96
bµ,α(θ) + 1/(α − 1) bμ,α(θ) + 1/(α − 1) 0.97
α − 1 ν(dy) α − 1 ν(dy) 0.85
+ o(ε) + o(ε) + o(ε) + o(ε) 0.85
p(y) p(y) 1 p(y) p(y) 1 0.85
(cid:82)  (cid:82)  0.82
+ o(ε) = ΨAR + o(ε) =ψar 0.71
α (µ) + ε = ΨAR α (µ) + ε =ψar 0.65
α (µ) + ε 1 α (µ) + ε 1 0.79
α − 1 (cid:90) α − 1 (cid:90) 0.82
µ(cid:48)(dθ) μ(cid:48)(dθ) 0.86
T using that log(1 + u) = u + o(u) as u → 0. T その log(1 + u) = u + o(u) を u → 0 として使う。 0.89
Consequently, the iterative update formula for the Entropic Mirror Descent applied to the objective function ΨAR その結果, 対象関数に印加したエントロピックミラーDescentの反復更新公式が得られた。 0.67
α is given by µn+1(dθ) = µn(dθ) αは μn+1(dθ) = μn(dθ) 0.59
e − η α−1 − η α−1 E − η α−1 − η α−1 0.73
µn(e µn (bµn ,α)+κ+1/(α−1) μn(e) μn(bμn ,α)+κ+1/(α−1) 0.70
bµn ,α (θ) bμn ,α (θ) 0.92
µn (bµn ,α)+κ+1/(α−1) ) μn(bμn ,α)+κ+1/(α−1) ) 0.67
bµn ,α , n ∈ N(cid:63) . bμn ,α , n ∈ N(cid:63)。 0.82
C.3 Proof of Theorem 3 As we shall see, the proof can be adapted from the proof of [17, Theorem 2]. C.3 定理の証明 3 以下に示すように,証明は[17, 定理2]の証明から適用することができる。 0.76
For all µ ∈ M1(T), we will use the notation すべての μ ∈ M1(T) に対して、表記法を用いる。 0.78
to designate the one-step transition of the Renyi Descent algorithm. Renyi Descentアルゴリズムの一段階の遷移を指定する。 0.76
Note in passing that for all κ(cid:48) ∈ R, this definition can also be rewritten under the form すべてのκ(cid:48) ∈ R に対して、この定義は形式の下で書き直すこともできることに注意。 0.74
I AR α (µ)(dθ) = I AR α (μ)(dθ) = 0.93
I AR α (µ)(dθ) = I AR α (μ)(dθ) = 0.93
(cid:16) µ(dθ) exp (cid:16) μ(dθ) exp 0.89
µ exp bµ,α(θ) µ exp bμ,α(θ) 0.89
(α−1)(µ(bµ,α)+κ)+1 (α−1)(μ(bμ,α)+κ)+1 0.87
(α−1)(µn(bµ,α)+κ)+1 (α−1)(μn(bμ,α)+κ)+1 0.82
(cid:105) (cid:104)−η (cid:104)−η (cid:105)(cid:17) (α−1)(µ(bµ,α)+κ)+1 + κ(cid:48)(cid:105) (cid:104)−η (α−1)(µn(bµ,α)+κ)+1 + κ(cid:48)(cid:105)(ci d:17) . (cid:105) (cid:104)−η (cid:104)−η (cid:105)(cid:17) (α−1)(μ(bμ,α)+κ)+1 + κ(cid:48)(cid:105) (cid:104)(μn(bμ,α)+κ)+1 + κ(cid:48)(cid:105)(ci d:17) 。 0.81
(cid:104)−η (cid:104)−η 0.74
bµ,α(θ) bµ,α bμ,α(θ) bμ,α 0.96
bµ,α (cid:16) bμ,α (cid:16) 0.86
µ(dθ) exp µ μ(dθ) exp µ 0.92
exp We also define exp 定義もします 0.81
Lα,2 = η−1 Lα,2 = η−1 0.52
θ∈T,µ∈M1(T) sup e−ηv θ・μ・M1(T) sup e−ηv 0.60
L = η2 sup v∈DomAR L =η2 sup v-Domar 0.67
α [(α − 1)(bµ,α(θ) + κ) + 1] α [(α − 1)(bµ,α(θ) + κ) + 1] 0.83
Lα,3 = sup Lα,3 = sup 0.67
v∈DomAR α Lα,1 = inf v-Domar α Lα,1 = inf 0.59
v∈DomAR α eηv {1 − η(α − 1)(v − κ(cid:48))} × η v-Domar α eηv {1 − η(α − 1)(v − κ(cid:48))} × η 0.70
inf v∈DomAR inf v-Domar 0.55
α e−ηv . (20) α e-ηv。 (20) 0.71
C.3.1 Recalling [17, Lemma 5] Let (ζ, µ) be a couple of probability measures where ζ is dominated by µ which we denote by ζ (cid:22) µ and define C.3.1 リコール [17, Lemma 5] を、 ( , μ) を μ に支配される確率測度とする。
訳抜け防止モード: C.3.1 リコール [17, Lemma 5 ] let ( , μ ) は μ に支配される確率測度の2つであり、ここでは μ で表す。
0.75
(cid:90) (cid:90) (cid:90) (cid:90) 0.78
Aα := ν(dy) Aα := ν(dy) 0.90
Y T µ(dθ)k(θ, y)f(cid:48) Y T μ(dθ)k(θ, y)f(cid:48) 0.89
α [1 − g(θ)] , α [1 − g(θ)] , 0.85
(21) (cid:18) g(θ)µk(y) (21) (cid:18) g(θ)μk(y) 0.90
(cid:19) p(y) (cid:19) p(y) 0.82
where g is the density of ζ w.r.t µ, i.e. g の密度は . w.r.t μ である。 0.89
ζ(dθ) = µ(dθ)g(θ). μ(dθ) = μ(dθ)g(θ) である。 0.79
We recall [17, Lemma 5] in Lemma 5 below. 以下にLemma 5の[17, Lemma 5]を思い出します。 0.73
18 18 0.85
英語(論文から抽出)日本語訳スコア
Lemma 5. [17, Lemma 5] Assume (A1). 第5回。 [17, Lemma 5]Assume (A1) 0.63
Then, for all µ, ζ ∈ M1(T) such that ζ (cid:22) µ and Ψα(µ) < ∞, we have すると、すべての μ に対して、(cid:22) μ と ψα(μ) < ∞ であるような m1(t) が成立する。 0.80
Aα (cid:54) Ψα(µ) − Ψα(ζ) . aα (cid:54) ψα(μ) − ψα(\) である。 0.73
(22) Moreover, equality holds in (22) if and only if ζ = µ. (22) さらに、等式は (22) で成り立つが、その必要十分条件は s = μ である。 0.72
C.3.2 Adaptation of [17, Theorem 1] Lemma 6. C.3.2 [17, Theorem 1] Lemma 6 の適応 0.89
Assume (A1) and (A4). (A1)、(A4)。 0.77
Let α ∈ R\{1}, let κ be such that (α−1)κ (cid:62) 0 and let µ ∈ M1(T) be such that α ∈ R\{1}, κ を (α−1)κ (cid:62) 0 とし、μ ∈ M1(T) をそうとする。 0.86
−η bµ,α + 1/(α − 1) −η bμ,α + 1/(α − 1) 0.89
(α − 1)(µ(bµ,α) + κ) + 1 (α − 1)(µ(bµ,α) + κ) + 1 0.71
< ∞ (23) (cid:26) < ∞ (23) (cid:26) 0.83
(cid:18) 0 < µ (cid:18) 0 < µ 0.82
exp (cid:19)(cid:27) exp (cid:19)(cid:27) 0.80
holds and Ψα(µ) < ∞. ψα(μ) < ∞ である。 0.70
Then, the two following assertions hold. そして次の2つの主張が成り立つ。 0.68
Proof. The proof builds on the proof of [17, Theorem 1] in the particular case α ∈ R \ {1}. 証明。 証明は、特定の場合 α ∈ R \ {1} において [17, Theorem 1] の証明に基づいている。 0.71
Indeed, in this case, 実際、このケースでは 0.66
(i) We have Ψα ◦ I AR (ii) We have Ψα ◦ I AR (i)我々は ψα と i ar (ii) 我々は ψα と i ar を持つ 0.80
α (µ). α (µ) (cid:54) Ψα(µ). α (µ). α(μ) (cid:54) >α(μ)。 0.70
α (µ) = Ψα(µ) if and only if µ = I AR (cid:90) (cid:90) (cid:20) α (μ) = ψα(μ) であることと μ = i ar (cid:90) (cid:90) (cid:20) であることは同値である。 0.70
(cid:34)(cid:18) g(θ)µk(y) (cid:19)α−1 (cid:18) µk(y) (cid:34)(cid:18) g(θ)μk(y) (cid:19)α−1 (cid:18) μk(y) 0.80
µ(dθ)k(θ, y) μ(dθ)k(θ, y) 0.93
µ(dθ)k(θ, y) μ(dθ)k(θ, y) 0.93
α − 1 α − 1 α − 1 α − 1 0.85
1 (cid:21) 1 (cid:21) 0.82
p(y) T T p(y) p(y) T T p(y) 0.85
1 ν(dy) ν(dy) 1 ν(dy) ν(dy) 0.85
(cid:90) (cid:90) (cid:90) (cid:90)(cid:90) 0.88
Y Y µ(dθ) bµ,α(θ) + Y Y μ(dθ) bμ,α(θ) + 0.91
g(θ)α−1 [1 − g(θ)] . g(θ)α−1 [1 − g(θ)] である。 0.82
Aα = = = (cid:19)α−1 − 1 Aα = = = (cid:19)α−1 − 1 0.83
(cid:35) [1 − g(θ)] (cid:35) [1 − g(θ)] 0.82
g(θ)α−1 [1 − g(θ)] g(θ)α−1[1 − g(θ)] 0.96
so that T 1 α − 1 だから T 1 α − 1 0.82
(cid:90) (cid:18) (cid:90) (cid:18) 0.78
Aα = [(α − 1)(µ(bµ,α) + κ) + 1] × Aα = [(α − 1)(μ(bμ,α) + κ) + 1] × 0.89
µ(dθ) T bµ,α(θ) + 1 α−1 μ(dθ) T bμ,α(θ) + 1α−1 0.91
(α − 1)(µ(bµ,α) + κ) + 1 (α − 1)(µ(bµ,α) + κ) + 1 0.71
g(θ)α−1 [1 − g(θ)] g(θ)α−1[1 − g(θ)] 0.96
where (α − 1)(µ(bµ,α) + κ) + 1 > 0 under (A1). ここで (α − 1)(μ(bμ,α) + κ) + 1 > 0 は (a1) である。 0.92
Set g = ˜Γ ◦ セット g (複数形 gs) 0.68
bµ,α + 1/(α − 1) bμ,α + 1/(α − 1) 1.00
(α − 1)(µ(bµ,α) + κ) + 1 (α − 1)(µ(bµ,α) + κ) + 1 0.71
(cid:19) where for all v ∈ DomAR α , (cid:19) すべての v ∈ DomAR α に対して、 0.79
˜Γ(v) = µ (cid:110) シュ(v) = µ (cid:110) 0.73
exp (cid:16)−η exp (cid:16)−η 0.79
(α−1)(µ(bµ,α)+κ)+1 − ηκ(cid:48)(cid:17)(cid :111) . (α−1)(μ(bμ,α)+κ)+1 − ηκ(cid:48)(cid:17)(cid :111)。 0.73
bµ,α+1/(α−1) bμ,α+1/(α−1) 0.63
e−ηv Finally, let us consider the probability space (T,T , µ) and let V be the random variable e−ηv 最後に、確率空間 (T,T , μ) を考え、V を確率変数とする。 0.60
V (θ) = bµ,α(θ) + 1/(α − 1) V(θ) = bμ,α(θ) + 1/(α − 1) 0.90
(α − 1)(µ(bµ,α) + κ) + 1 (α − 1)(µ(bµ,α) + κ) + 1 0.71
+ κ(cid:48) . +κ(cid:48)。 0.79
Then, we have E[1 − ˜Γ(V )] = 0 and we can write すると、E[1 − s(V )] = 0 となり、書ける。 0.64
Aα = [(α − 1)(µ(bµ,α) + κ) + 1] × E[(V − κ(cid:48))˜Γα−1(V )(1 − ˜Γ(V ))] Aα = [(α − 1)(μ(bμ,α) + κ) + 1] × E[(V − κ(cid:48)) sα−1(V )(1 − s(V ))] 0.90
= [(α − 1)(µ(bµ,α) + κ) + 1] × Cov((V − κ(cid:48))˜Γα−1(V ), 1 − ˜Γ(V )) . = [(α − 1)(μ(bμ,α) + κ) + 1] × cov((v − κ(cid:48)) sγα−1(v ), 1 − sγ(v )) である。 0.91
(24) Under (A4) with α ∈ R\{1}, v (cid:55)→ (v−κ(cid:48))˜Γα−1(v) and v (cid:55)→ 1−˜Γ(v) are increasing on DomAR implies Cov(V ˜Γα−1(V ), 1 − ˜Γ(V )) (cid:62) 0 and thus Aα (cid:62) 0 since (α − 1)(µ(bµ,α) + κ) + 1 > 0. (24) A4) with α ∈ R\{1}, v (cid:55)→ (v−κ(cid:48)) シュα−1(v) and v (cid:55)→ 1− シュ(v) is increase on DomAR suggests Cov(V , 1 − シュ(V )) (cid:62) 0, so Aα (cid:62) 0 since (α − 1)(μ(bμ,α) + κ) + 1 > 0。 0.89
α which 19 α である。 19 0.73
英語(論文から抽出)日本語訳スコア
C.3.3 Adaptation of [17, Lemma 6] Consider the probability space (T,T , µ) and denote by Varµ the associated variance operator. c.3.3 の [17, lemma 6] の適応は確率空間 (t,t , μ) を考慮し、varμ で関連する分散作用素を表す。 0.72
Lemma 7. Assume (A1) and (A4). 第7回。 (A1)、(A4)。 0.68
Let α ∈ R \ {1}, let κ be such that (α − 1)κ > 0, and let µ ∈ M1(T) be such that (23) holds and Ψα(µ) < ∞. α ∈ r \ {1} とすると、κ を (α − 1)κ > 0 となるようなものとし、μ ∈ m1(t) を (23) が成立し ψα(μ) < ∞ となるようなものとする。 0.83
Then, (α − 1)κLα,1 そしたら (α − 1)κLα,1 0.68
Varµ bµ,α + 1/(α − 1) Varμ bμ,α + 1/(α − 1) 0.89
(α − 1)(µ(bµ,α) + κ) + 1 (α − 1)(µ(bµ,α) + κ) + 1 0.71
(cid:54) Ψα(µ) − Ψα ◦ I AR (cid:54) ψα(μ) − ψα , i ar 0.78
α (µ) , (25) α (µ) , (25) 0.78
(cid:18) (cid:19) (cid:18) (cid:19) 0.78
where 2 Lα,1 := inf どこに 2 Lα,1 := inf 0.75
v∈DomAR α {1 − η(α − 1)(v − κ(cid:48))} × inf v-Domar α {1 − η(α − 1)(v − κ(cid:48))} × inf 0.67
v∈DomAR α ηe−ηv . v-Domar α ηe-ηv。 0.49
Proof. The proof of Lemma 7 builds on the proof of [17, Lemma 6], which can be found in the supplementary material of [17]. 証明。 Lemma 7 の証明は [17, Lemma 6] の証明に基づいている。
訳抜け防止モード: 証明。 補題7の証明は[17]の証明に基づいている 補題6] 17] の補足材料に含まれている。
0.61
Using (24) combined with the fact that under (A1), (α − 1)(µ(bµ,α) + κ) + 1 > (α − 1)κ > 0 (24) と (A1) において (α − 1)(μ(bμ,α) + κ) + 1 > (α − 1)κ > 0 であるという事実を組み合わせる 0.90
Aα = [(α − 1)(µ(bµ,α) + κ) + 1] × Cov((V − κ(cid:48))˜Γα−1(V ), 1 − ˜Γ(V )) Aα = [(α − 1)(μ(bμ,α) + κ) + 1] × Cov((V − κ(cid:48)) シュα−1(V ), 1 − シュ(V )) 0.94
> (α − 1)κ × Cov((V − κ(cid:48))˜Γα−1(V ), 1 − ˜Γ(V )) > (α − 1)κ × Cov((V − κ(cid:48)) >α−1(V ), 1 − >(V )) 0.95
Furthermore, Cov((V − κ(cid:48))˜Γα−1(V ), 1 − ˜Γ(V )) さらに Cov((V − κ(cid:48)) >α−1(V ), 1 − >(V )) 0.72
E(cid:104) (cid:34) E(cid:104)(cid:34) 0.77
E = = 1 2 1 2 E = = 1 2 1 2 0.85
((U − κ(cid:48))˜Γα−1(U ) − (V − κ(cid:48))˜Γα−1(V ))(−˜Γ(U ) + ˜Γ(V )) (U − κ(cid:48))˜Γα−1(U ) − (V − κ(cid:48))˜Γα−1(V ) ((U − κ(cid:48)) - (V − κ(cid:48)) − (V − κ(cid:48)) - (V − κ(cid:48)) - (V − κ(cid:48))) (U − κ(cid:48)) + シュ(V)) (U − κ(cid:48)) シュα−1(U ) − (V − κ(cid:48)) シュα−1(V ))
訳抜け防止モード: (U − κ(cid:48)) シュα−1(U ) − (V − κ(cid:48)) シュα−1(V ) ) ( − シュ(U ) + シュ(V) )) ( U − κ(cid:48)) シュα−1(U ) − ( V − κ(cid:48)) シュα−1(V )
0.82
−˜Γ(U ) + ˜Γ(V ) -(U ) +(V ) 0.62
U − V (U − V )2 U − V (U − V )2 0.85
(cid:18) U − V (cid:18) U − V 0.82
bµ,α + 1/(α − 1) bμ,α + 1/(α − 1) 1.00
(α − 1)(µ(bµ,α) + κ) + 1 (α − 1)(µ(bµ,α) + κ) + 1 0.71
(cid:19) (cid:105) (cid:19) (cid:105) 0.78
(cid:35) (cid:62) Lα,1 2 (cid:35) (cid:62)lα,12 0.68
Varµ and we thus obtain (25). Varμ そこから (25) を得る。 0.68
C.3.4 Adaptation of the proof of [17, Theorem 2] to obtain Theorem 3 C.3.4 定理3を得るための[17, Theorem 2]の証明の適応 0.81
Proof of Theorem 3. The proof of Theorem 3 builds on the proof of [17, Theorem 2], which can be found in the supplementary material of [17]. 定理3の証明。 Theorem 3 の証明は [17, Theorem 2] の証明に基づいている。
訳抜け防止モード: 定理3の証明。 定理3の証明は[17,]の証明に基づいている 定理2 ] 17] の補足材料に含まれている。
0.60
We prove the assertions successively. 我々はその主張を次々と証明する。 0.51
(i) The proof of (i) simply consists in verifying that we can apply Lemma 6. i) (i) の証明は、単に Lemma 6 を適用できるかどうかの検証である。 0.77
For all µ ∈ M1(T), (23) with µ = µn holds for all n ∈ N(cid:63) by assumption on |B|∞,α and since at each step n ∈ N(cid:63), Lemma 6 combined with Ψα(µn) < ∞ implies that Ψα(µn+1) (cid:54) Ψα(µn) < ∞, we obtain by induction that (Ψα(µn))n∈N(cid:63) is non-increasing. すべての μ ∈ M1(T) に対して、μ = μn を持つ (23) は |B|∞,α 上のすべての n ∈ N(cid:63) に対して成り立つので、各ステップ n ∈ N(cid:63) において、Lemma 6 と >α(μn+1) < ∞ と組み合わせると、 >α(μn+1) (cid:54) >α(μn) < ∞ が成り立つ。 0.85
(ii) Let n ∈ N(cid:63), set ∆n = Ψα(µn) − Ψα(µ(cid:63)) and for all θ ∈ T, Vn(θ) = such that dµn+1 ∝ e−ηVndµn. (ii) n ∈ N(cid:63) を集合とし、すべての θ ∈ T に対して、Vn(θ) = {\displaystyle Vn(θ)=} を dμn+1 > e−ηVndμn とする。 0.86
We first show that (α−1)(µn(bµn ,α)+κ)+1 + κ(cid:48), (cid:21) 最初に示すのは (α−1)(μn(bμn ,α)+κ)+1 + κ(cid:48), (cid:21) 0.74
bµn,α(θ)+ 1 bμn,α(θ)+ 1 0.96
(cid:19) (cid:20)(cid:90) (cid:19) (cid:20)(cid:90) 0.77
α−1 (cid:18) dµn+1 α−1 (cid:18)dμn+1 0.56
∆n (cid:54) Lα,2 n (cid:54) lα,2 0.51
log dµ(cid:63) + ログ dμ(cid:63)+ 0.74
Varµn (Vn)Lα,3 Varμn (Vn)Lα,3 0.64
. L 2 The convexity of fα implies that . L2 fα の凸性は、 0.78
dµn T (cid:90) (cid:18) (cid:19) (cid:90) bµn,α(dµn − dµ(cid:63)) (α − 1)(µn(bµn,α) + κ) + 1 dμn T (cid:90) (cid:18) (cid:19) (cid:90) bμn,α(dμn − dμ(cid:63)) (α − 1)(μn(bμn,α) + κ) + 1 0.75
α − 1 bµn,α + α − 1 bμn,α + 0.85
1 T T (cid:90) 1 T T (cid:90) 0.83
(dµn − dµ(cid:63)) (dμn − dμ(cid:63)) 0.76
∆n (cid:54) ウン(cid:54) 0.61
= = η T 20 = = η T 20 0.85
(µn(ηVn) − ηVn)dµ(cid:63) . (μn(ηVn) − ηVn)dμ(cid:63)。 0.72
(26) (27) (28) (26) (27) (28) 0.85
英語(論文から抽出)日本語訳スコア
Then, noting that −ηVn = log µn そしてそれについて −ηVn = log μn 0.69
we deduce ∆n (cid:54) Lα,2 私たちは n (cid:54) lα,2 0.56
(cid:90) (cid:20) (cid:90) (cid:20) 0.78
T µn(ηVn) + log µn T μn(ηVn) + log μn 0.85
(cid:0)e−ηVn(cid:1) + log (cid:0)e−ηVn(cid:1) + log 0.69
(cid:18) dµn+1 (cid:0)e−ηVn(cid:1) + log (cid:18) dμn+1 (cid:0)e−ηVn (cid:1) + log 0.61
(cid:19) (cid:18) dµn+1 (cid:19) (cid:18) dμn+1 0.59
dµn dµn (cid:19)(cid:21) dμn dμn (cid:19)(cid:21) 0.64
dµ(cid:63) . dμ (cid:63)。 0.67
(29) Since v (cid:55)→ e−ηv is L-smooth on DomAR (29) v (cid:55)→ e−ηv が DomAR 上の L-滑らかであることから 0.69
α , for all θ ∈ T and for all n ∈ N(cid:63) we can write α , すべての θ ∈ t およびすべての n ∈ n(cid:63) に対して書くことができる。 0.80
e−ηVn(θ) (cid:54) e−ηµn(Vn) + ηe−ηµn(Vn)(Vn(θ) − µn(Vn)) + e−ηVn(θ) (cid:54) e−ημn(Vn) + ηe−ημn(Vn)(Vn(θ) − μn(Vn)) + 0.78
(Vn(θ) − µn(Vn))2 (Vn(θ) − μn(Vn))2 0.92
L 2 which in turn implies L2 これが意味するところは 0.60
Finally, we obtain µn(e−ηVn) (cid:54) e−ηµn(Vn) + 最後に μn(e−ηVn) (cid:54) e−ημn(Vn) + 0.51
Varµn(Vn) e−ηµn(Vn) Using that log(1 + u) (cid:54) u when u (cid:62) 0 and by definition of Lα,3, we deduce Varμn(Vn) e−ημn(Vn) この log(1 + u) (cid:54) u は u (cid:62) 0 であり、Lα,3 の定義により導出する。 0.74
log µn(e−ηVn ) (cid:54) log e−ηµn(Vn) + log log μn(e−ηVn ) (cid:54) log e−ημn(Vn) + log 0.72
L 2 1 + log µn(e−ηVn) (cid:54) −ηµn(Vn) + L2 1 + log μn(e−ηVn) (cid:54) −ημn(Vn) + 0.78
L 2 Varµn (Vn)Lα,3 , L2 Varμn (Vn)Lα,3 , 0.73
Varµn (Vn) . Varμn (Vn)。 0.75
L 2 (cid:18) L2 (cid:18) 0.78
(cid:19) . (cid:19) . 0.82
which combined with (29) implies (26). これは (29) と組み合わせると (26) を意味する。 0.76
To conclude, we apply Lemma 7 to g = dµn+1 dµn with (26), we obtain 結論として、(26) で g = dμn+1 dμn に対して Lemma 7 を適用する。 0.67
and combining (cid:21) 組み合わせることで (cid:21) 0.74
(cid:20)(cid:90) (cid:20)(cid:90) 0.75
(cid:19) (cid:18) dµn+1 (cid:20) (cid:19) (cid:18)dμn+1(cid:20) 0.68
dµn ∆n (cid:54) Lα,2 dμn n (cid:54) lα,2 0.55
log T dµ(cid:63) + ログ T dμ(cid:63)+ 0.78
LLα,3 Lα,1(α − 1)κ LLα,3 Lα,1(α − 1)κ 0.66
(∆n − ∆n+1) , N(cid:88) (n+1) , n(cid:88) 0.75
where by assumption Lα,1, Lα,2 and Lα,3 > 0. ここで Lα,1, Lα,2 および Lα,3 > 0 を仮定する。 0.54
As the r.h.s involves two telescopic sums, we deduce r.h.sには 2つのテレスコープの合計があるので 0.49
Ψα(µn) − Ψα(µ(cid:63)) (cid:54) Lα,2 N ψα(μn) − ψα(μ(cid:63))(cid:54) lα,2n 0.73
1 N and we recover (9) using (i), that KL(µ(cid:63)||µN +1) (cid:62) 0 and that ∆N +1 (cid:62) 0. 1 n で (i) を用いて (9) を回収し、kl(μ(cid:63)||μn +1) (cid:62) 0 とし、(cid:62) 0 とする。 0.72
KL(µ(cid:63)||µ1) − KL(µ(cid:63)||µN +1) + L KL(μ(cid:63)||μ1) − KL(μ(cid:63)||μN +1) + L 0.77
n=1 Lα,3 Lα,1(α − 1)κ n=1 Lα,3 Lα,1(α − 1)κ 0.64
(∆1 − ∆N +1) (cid:21) (=1-1) (cid:21) 0.66
C.4 The Renyi Descent for mixture models: practical version C.4 混合モデルのためのRenyi Descent:実用版 0.86
The algorithm below provides one possible approximated version of the Renyi Descent algorithm, where we have set Γ(v) = e−ηv with η > 0. 下記のアルゴリズムは、γ(v) = e−ηv を η > 0 とするrenyi降下アルゴリズムの近似バージョンを提供する。 0.74
C.5 Alternative Exploration step in Algorithm 2 C.5 アルゴリズム2における代替探索 0.75
We present here several possible alternative choices of Exploration step in Algorithm 2, beyond the one we have made in Section 5 and that is based on [18]. ここでは,アルゴリズム2における探索ステップの選択肢として,第5節および[18]に基づくもの以外の選択肢をいくつか提示する。 0.79
Our goal here is not to discriminate between all of them, but to illustrate the generality of our approach. ここでの目標は、これらすべてを区別することではなく、私たちのアプローチの汎用性を説明することです。 0.60
Gradient Descent. グラディエント・Descent。 0.47
One could use a Gradient Descent approach to optimise the mixture components parameters {θ1,t+1, . 勾配降下法を用いて混合成分パラメータ {θ1,t+1, ... を最適化することができる。 0.63
. . , θJ,t+1} in the spirit of Renyi’s α-divergence gradient-based methods (e.g [9, 10]) or α-divergence gradient-based methods (e.g [11, 12]). . . θJ,t+1} は Renyi の α-分数勾配法 (例 [9, 10]) や α-分数勾配法 (例 [11, 12]) の精神において用いられる。 0.84
21 21 0.85
英語(論文から抽出)日本語訳スコア
Algorithm 4: Practical version of the Renyi Descent for mixture models Input: p: measurable positive function, K: Markov transition kernel, M: number of samples, Θ = {θ1, . アルゴリズム4: 混合モデルに対するRenyi Descentの実用版 入力: p: 可測正の関数、K: マルコフ遷移核、M: サンプル数、s = {θ1, 0.72
. . , θJ} ⊂ T: parameter set, Γ(v) = e−ηv with η > 0, N: total number of iterations. . . , θJ} は T: パラメータ集合、 η > 0, N: 反復の総数である。 0.76
Output: Optimised weights λ. 出力:最適化重量λ。 0.88
Set λ = [λ1,1, . λ = [λ1,1, ] とする。 0.59
. . , λJ,1]. . . λJ,1]。 0.84
for n = 1 . n = 1 の場合。 0.87
. . N do Sampling step : Draw independently M samples Y1, . . . N do サンプリングステップ:独立したMサンプルY1, 。 0.86
. . , YM from µλ,Θk. . . , μλ,θkからym。 0.81
Expectation step : Compute Bλ = (b(cid:48) 期待ステップ : 計算 bλ = (b(cid:48) 0.85
j)1(cid:54)j(cid:54) J where for all j = 1 . j)1(cid:54)j(cid:54) J ここではすべての j = 1 である。 0.76
. . J M(cid:88) . . J m(cid:88) 0.83
m=1 bj = 1 M m=1。 bj = 1M 0.69
k(θj, Ym) µλ,Θk(Ym) k(θj, Ym) μλ,\k(Ym) 0.97
f(cid:48) α f(cid:48) α 0.85
(cid:18) µλ,Θk(Ym) (出典:18)μλ,/k(Ym) 0.78
(cid:19) p(Ym) (cid:19) p(Ym) 0.82
and for all j = 1 . すべての j = 1 に対して。 0.78
. . J and deduce W λ = (λjΓ(b(cid:48) Iteration step : Set . . J そして w λ = (λjγ(b(cid:48)) 反復ステップ : set 0.85
(α − 1)((cid:80)J (α − 1)((cid:80)J 1.00
b(cid:48) j = b(cid:48) j = 0.92
j + κ(cid:48)))1(cid:54)j (cid:54)J and wλ =(cid:80)J j + κ(cid:48))1(cid:54)j( cid:54)Jとwλ =(cid:80)J 0.88
bj (cid:96)=1 b(cid:96) + κ) + 1 bj (cid:96)=1 b(cid:96) + κ) + 1 0.88
j=1 λjΓ(b(cid:48) j=1 λj'(b(cid:48) 0.71
j + κ(cid:48)). j + κ(cid:48)。 0.90
λ ← 1 wλ W λ λ = 1 wλ W λ 0.81
The particular case α ∈ [0, 1). 特定の場合 α ∈ [0, 1) である。 0.83
Following [18], if we consider the specific case α ∈ [0, 1) another possibility would be to set at time t: for all j = 1 . 18] に従えば、特定の場合 α ∈ [0, 1) を考えるならば、時間 t: すべての j = 1 に対して設定する別の可能性もある。 0.83
. . J θj,t+1 = argmaxθj∈T . . J θj,t+1 = argmaxθj ajaxt 0.76
γt j,α(y) log(k(θj, y))ν(dy) γt j,α(y) log(k(θj, y))ν(dy) 0.93
(30) where for all y ∈ Y, (30) すべての y ∈ Y に対して 0.80
γt j,α(y) = k(θj,t, y) γt j,α(y) = k(θj,t, y) 0.95
(cid:18) µλ,Θk(y) (cid:18)μλ,θk(y) 0.82
(cid:19)α−1 (cid:19)α−1 0.65
p(y) . Indeed, [18] showed that the above update formulas for {θ1,t+1, . p(y) . 実際、[18] は上記の {θ1,t+1, の更新公式を示した。 0.83
. . , θJ,t+1} ensure a systematic decrease in the α-divergence and they notably explained how these update formulas could even outperform typical Renyi’s α / α-divergence gradient-based approaches (we refer to [18] for details). . . θJ,t+1} は α-分岐の体系的な減少を確実にし、これらの更新公式が典型的な Renyi の α / α-分岐勾配に基づくアプローチよりも優れていることを明らかに説明した(詳細は [18] を参照)。 0.78
Furthermore, in the particular case of d-dimensional Gaussian kernels with k(θj,t, y) = N (y; mj,t, Σj,t) and where θj,t = (mj,t, Σj,t) ∈ T denotes the mean and covariance matrix of the j-th Gaussian component density, they obtained that the maximisation procedure (30) amounts to setting さらに、k(θj,t, y) = N (y; mj,t, Σj,t) を持つ d-次元ガウス核の特定の場合において、θj,t = (mj,t, Σj,t) ∈ T は j-次ガウス成分密度の平均と共分散行列を表すので、最大化手順 (30) は設定に等しい。 0.82
(cid:90) Y (cid:90) Y 0.82
(cid:82) (cid:82) (cid:82) (cid:82)(cid:82) 0.88
∀j = 1 . . は 1 である。 . 0.66
. J, mj,t+1 = . J, mj,t+1 = 0.88
Σj,t+1 = Y γt j,α(y)y ν(dy) Y γt j,α(y)ν(dy) j,α(y)(y − mj,t)(y − mj,t)T ν(dy) Y γt Σj,t+1 = Y γt j,α(y)y ν(dy) Y γt j,α(y)ν(dy) j,α(y)(y − mj,t)(y − mj,t)T ν(dy) Y γt 0.82
(cid:82) Y γt (cid:82) Y γt 0.83
j,α(y)ν(dy) j,α(y)ν(dy) 0.85
. These update formulas can then always be made feasible by resorting to Monte Carlo approximations and can be used as a valid Exploration step. . これらの更新公式はモンテカルロ近似を利用して常に実現可能であり、有効な探索ステップとして使用できる。 0.78
If we were to focus on solely updating the means 単に手段を更新することに集中するなら 0.61
22 22 0.85
英語(論文から抽出)日本語訳スコア
(mj,t+1)1(cid:54)j(cid:54) J, we could for example consider the Exploration step given by: m; λ) · Y (cid:48) m; λ) (mj,t+1)1(cid:54)j(cid:54) j,例えば、m; λ) · y (cid:48) m; λ) で与えられる探索ステップを考えることができる。 0.86
j (Y (cid:48) m=1 ˆγ(t) j (Y (cid:48) m=1 >γ(t) 0.77
∀j = 1 . . は 1 である。 . 0.66
. J, θj,t+1 = mj,t+1 = . j. θj,t+1 = mj,t+1 = 0.74
m=1 ˆγ(t) m m=1 >γ(t) M 0.72
where the M samples (Y (cid:48) we have set ここで M サンプル (Y (cid:48) をセットします 0.74
m)1(cid:54)m(cid:54) M have been drawn independently from the proposal µλ,Θ and where m)1(cid:54)m(cid:54) M は μλ から独立して引き出された。 0.77
(cid:80)M (cid:80)M (cid:18) µλ,Θk(y) (cid:80)M (cid:80)M (cid:18) μλ,\k(y) 0.84
p(y) j (Y (cid:48) p(y) j (Y (cid:48) 0.88
(cid:19)α−1 (cid:19)α−1 0.65
. ˆγ(t) j (y; λ) = . γ(t) j (y; λ) = 0.83
k(θj,t, y) µλ,Θk(y) k(θj,t, y) μλ,\k(y) 0.95
We ran Algorithm 2 over 100 replicates for this choice of Exploration step with M ∈ {100, 500} (and √ keeping the same target p, initial sampler q0, and hyperparameters N = 20, T = 10, η = η0/ N with η0 = 0.3, α = 0.5, J = 100, κ = 0. and d = 16 as those chosen in Section 5). アルゴリズム2は、m ∈ {100, 500} によるこの探索ステップの選択のために100以上の複製を実行した(そして、同じ目標 p, 初期標本 q0, ハイパーパラメータ n = 20 t = 10 η = η0/n を η0 = 0.3, α = 0.5, j = 100, κ = 0, d = 16 を第5節で選択したものとして保持する)。 0.84
The results when using the Power and the Renyi Descent as Exploitation steps can be visualised in the figure below. 爆発ステップとしてPowerとRenyi Descentを使用する場合の結果は、以下の図で確認できる。 0.69
Figure 2: Plotted is the average Variational Renyi bound for the Power Descent (PD) and the Renyi Descent (RD) in dimension d = 16 computed over 100 replicates with η0 = 0.3 and α = 0.5 and an increasing number of samples M. 図2:プロットは、パワー降下 (pd) と次元 d = 16 のレニー降下 (rd) に対する平均変動レーニーバインドで、η0 = 0.3 と α = 0.5 で100以上の複製を計算し、サンプル m が増加する。 0.75
We then observe a similar behavior for the Power and the Renyi Descent, which illustrates the closeness between both algorithms, irrespective of the choice of the Exploration step. 次に,探索ステップの選択によらず,両アルゴリズム間の密接性を示すパワーとレーニー降下について同様の挙動を観察する。 0.77
23 23 0.85
                                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。