論文の概要、ライセンス

# (参考訳) 最小識別情報による分布シフトにもかかわらずロバスト一般化 [全文訳有]

Robust Generalization despite Distribution Shift via Minimum Discriminating Information ( http://arxiv.org/abs/2106.04443v1 )

ライセンス: CC BY 4.0
Tobias Sutter, Andreas Krause, Daniel Kuhn(参考訳) 分散シフト下でうまく機能するトレーニングモデルは、マシンラーニングの中心的な課題である。 本稿では、トレーニングデータに加えて、シフトしたテスト分布に関する部分的構造的知識を持つモデリングフレームワークを提案する。 利用可能な事前知識を埋め込むために最小識別情報の原則を採用し、限定されたサンプルによる不確実性を考慮するために分布的ロバストな最適化を用いる。 大きな偏差結果を利用することで、未知のシフト分布に対する明示的な一般化境界が得られる。 最後に,(1)体系的偏りのあるデータに対する分類器の訓練と,(2)マルコフ決定過程におけるオフポリシー評価という2つの異なる応用により,フレームワークの汎用性を示す。

Training models that perform well under distribution shifts is a central challenge in machine learning. In this paper, we introduce a modeling framework where, in addition to training data, we have partial structural knowledge of the shifted test distribution. We employ the principle of minimum discriminating information to embed the available prior knowledge, and use distributionally robust optimization to account for uncertainty due to the limited samples. By leveraging large deviation results, we obtain explicit generalization bounds with respect to the unknown shifted distribution. Lastly, we demonstrate the versatility of our framework by demonstrating it on two rather distinct applications: (1) training classifiers on systematically biased data and (2) off-policy evaluation in Markov Decision Processes.
公開日: Tue, 8 Jun 2021 15:25:35 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] G L . 8 ] G L。 0.81
s c [ 1 v 3 4 4 4 0 sc [ 1 v 3 4 4 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Robust Generalization despite Distribution Shift via 分布シフトにも拘わらずロバスト一般化 0.64
Minimum Discriminating Information Tobias Sutter1,2 最小識別情報 Tobias Sutter1,2 0.63
Andreas Krause2 アンドレアス・クラウス2 0.47
Daniel Kuhn1 1Risk Analytics and Optimization Chair, Ecole Polytechnique F´ed´erale de Lausanne, ダニエル・クーン1 1Risk Analytics and Optimization Chair, Ecole Polytechnique F ́ed ́erale de Lausanne 0.67
{tobias.sutter, daniel.kuhn}@epfl.ch tobias.sutter, daniel.kuhn}@epfl.ch 0.68
2Department of Computer Science, ETH Zurich, krausea@ethz.ch 2Department of Computer Science, ETH Zurich, krausea@ethz.ch 0.94
June 9, 2021 Abstract 2021年6月9日 概要 0.58
Training models that perform well under distribution shifts is a central challenge in machine learning. 分散シフト下でうまく機能するトレーニングモデルは、マシンラーニングの中心的な課題である。 0.68
In this paper, we introduce a modeling framework where, in addition to training data, we have partial structural knowledge of the shifted test distribution. 本稿では、トレーニングデータに加えて、シフトしたテスト分布に関する部分的構造的知識を持つモデリングフレームワークを提案する。 0.75
We employ the principle of minimum discriminating information to embed the available prior knowledge, and use distributionally robust optimization to account for uncertainty due to the limited samples. 利用可能な事前知識を埋め込むために最小識別情報の原則を採用し、限定されたサンプルによる不確実性を考慮するために分布的ロバストな最適化を用いる。 0.73
By leveraging large deviation results, we obtain explicit generalization bounds with respect to the unknown shifted distribution. 大きな偏差結果を利用することで、未知のシフト分布に対する明示的な一般化境界が得られる。 0.68
Lastly, we demonstrate the versatility of our framework by demonstrating it on two rather distinct applications: (1) training classifiers on systematically biased data and (2) off-policy evaluation in Markov Decision Processes. 最後に,(1)体系的偏りのあるデータに対する分類器の訓練と,(2)マルコフ決定過程におけるオフポリシー評価という2つの異なる応用により,フレームワークの汎用性を示す。 0.75
Keywords— Stochastic programming, data-driven decision making, distribution shift, distributionally robust optimization, large deviations, principle of minimum discriminating information キーワード — 確率的プログラミング、データ駆動意思決定、分布シフト、分布的ロバストな最適化、大きな偏差、最小識別情報の原則 0.75
1 Introduction Developing machine learning-based systems for real world applications is challenging, particularly because the conditions under which the system was trained are rarely the same as when using the system. 1 はじめに 実世界のアプリケーションのための機械学習ベースのシステムの開発は、特に、システムがトレーニングされた条件がシステムを使用する場合とほとんど変わらないため、難しい。 0.72
Unfortunately, a standard assumption in most machine learning methods is that test and training distribution are the same [11, 51, 69]. 残念なことに、ほとんどの機械学習手法における標準的な仮定は、テストとトレーニングの分布は同じ[11, 51, 69]であるということです。
訳抜け防止モード: 残念なことに、ほとんどの機械学習手法における標準的な仮定は、 テストとトレーニングの分布は同じです [11, 51, 69]
0.80
This assumption, however, rarely holds in practice, and the performance of many models suffers in light of this issue, often called distribution shift [47]. しかし、この仮定は実際にはほとんど成立せず、多くのモデルの性能は、しばしば分布シフト[47]と呼ばれるこの問題に悩まされる。 0.75
Consider building a model for diagnosing a specific heart disease, and suppose that most participants of the study are middle to high-aged men. 特定の心疾患を診断するためのモデルの構築を検討し、研究のほとんどの参加者が中高年男性であると仮定する。 0.82
Further suppose these participants have a higher risk for the specific disease, and as such do not reflect the general population with respect to age and gender. さらに、これらの参加者は特定の疾患のリスクが高く、年齢や性別に関して一般人口を反映していないと仮定する。 0.76
Consequently, the training data suffers from the so-called sample selection bias inducing a covariate shift [47, 54]. これにより、トレーニングデータは、共変量シフト[47,54]を誘導するいわゆるサンプル選択バイアスに悩まされる。 0.76
Many other reasons lead to distribution shifts, such as non-stationary environments [58], imbalanced data [47], domain shifts [3], label shifts [73] or observed contextual information [9, 10]. その他の理由は、非定常環境[58]、不均衡データ[47]、ドメインシフト[3]、ラベルシフト[73]、観測されたコンテキスト情報[9,10]など、分散シフトにつながる。
訳抜け防止モード: その他の理由として,非定常環境 [58 ] などの分散シフトがあげられる。 不均衡データ[47 ], 領域シフト[3 ], ラベルシフト[73]または観測されたコンテキスト情報[9,10]。
0.87
A specific type of distribution shift takes center stage in off-policy evaluation (OPE) problems. 特定のタイプの分散シフトは、オフ・ポリティ・アセスメント(OPE)問題の中心となる。 0.64
Here, one is concerned with the task of estimating the resulting cost of an evaluation policy for a sequential decision making problem based on historical data obtained from a different policy known as behavioural policy [64]. ここで、行動政策(64)として知られる異なる政策から得られた履歴データに基づいて、逐次意思決定問題に対する評価方針の結果としてのコストを推定するタスクに関する。 0.84
This problem is of critical importance in various applications of reinforcement learning—particularly, when it is impossible or unethical to evaluate the resulting cost of an evaluation policy by running it on the underlying system. この問題は、強化学習の様々な応用において重要なものであり、特に、基礎となるシステム上で実行することで評価政策の結果のコストを評価することは不可能または非倫理的である。 0.63
Solving a learning problem facing an arbitrary and unknown distribution shift based on training data in general is hopeless. トレーニングデータに基づく任意かつ未知の分布シフトに直面する学習問題を解決することは、期待できない。 0.78
Oftentimes, fortunately, partial knowledge about the distribution shift is available. 幸運なことに、分布シフトに関する部分的な知識は、しばしば利用可能である。 0.58
In the medical example above, we might have prior information how the demographic attributes in our sample differ from the general population. 以上の医学的な例では、サンプルの人口特性が一般人口とどのように異なるかという事前情報があるかもしれない。
訳抜け防止モード: 上述の医療例では、先行情報があるかもしれない。 サンプルの人口統計学的特性は 一般人口と異なります
0.74
Given a training distribution and partial knowledge about the shifted test distribution, one might ask what is the “most natural” distribution shift mapping the training トレーニング分布とシフトしたテスト分布に関する部分的知識を考えると、トレーニングをマッピングする"最も自然な"分散シフトとは何か、という疑問があるかもしれない。
訳抜け防止モード: シフトしたテスト分布に関するトレーニング分布と部分的知識が与えられた。 質問するかもしれませんが トレーニングを"最も自然な" 分布シフトでマッピングし
0.76
1 1 0.85
英語(論文から抽出)日本語訳スコア
distribution into a test distribution consistent with the available structural information. 利用可能な構造情報と一致するテスト分布への分布。 0.87
Here, we address this question, interpreting “most natural” as maximizing the underlying Shannon entropy. ここでは、「最も自然な」ことをシャノンエントロピーの根底にある最大化と解釈する。 0.66
This concept has attracted significant interest in the past in its general form, called principle of minimum discriminating information dating back to Kullback [34], which can be seen as a generalization of Jaynes’ maximum entropy principle [30]. この概念は過去において、kullback [34] に遡る最小識別情報の原理と呼ばれる一般的な形で大きな関心を集めており、jaynes の最大エントロピー原理 [30] の一般化と見なすことができる。 0.74
While these principles are widely used in tasks ranging from economics [26] to systems biology [55] and regularized Markov decision processes [2, 24, 45], they have not been investigated to model general distribution shifts as we consider in this paper. これらの原理は,経済学 [26] からシステム生物学 [55] や正規化マルコフ決定過程 [2,24,45] まで幅広いタスクで広く用いられているが,本論文で検討する一般分布シフトのモデル化には至っていない。 0.82
Irrespective of the underlying distribution shift, the training distribution of any learning problem is rarely known and one typically just has access to finitely many training samples. 基礎となる分布シフトに関係なく、学習問題のトレーニング分布はほとんど知られておらず、通常は有限個のトレーニングサンプルにアクセスできるだけである。 0.75
It is well-known that models can display a poor out-of-sample performance if training data is sparse. トレーニングデータがスパースであれば、モデルが貧弱なサンプル性能を示すことはよく知られている。 0.66
These overfitting effects are commonly avoided via regularization [11]. これらの過剰フィッティング効果は正規化[11]によって一般的に避けられる。 0.58
A regularization technique that has become popular in machine learning during the last decade and provably avoids overfitting is distributionally robust optimization (DRO) [33]. 過去10年間に機械学習で普及し、オーバーフィッティングを確実に回避してきた正規化技術は、分散ロバストな最適化(DRO) [33]である。 0.69
Contributions. We highlight the following main contributions of this paper: 貢献。 本論文の主な貢献は以下のとおりである。 0.74
• We introduce a new modelling framework for distribution shifts via the principle of minimum discrim- •最小判別原理を通した分散シフトのための新しいモデリングフレームワークについて紹介する 0.85
inating information, that encodes prior structural information on the resulting test distribution. インテーティング情報(inating information)は、結果のテスト分布の事前構造情報をエンコードする。 0.62
• Using our framework and the available training samples, we provide generalization bounds via a DRO •我々のフレームワークと利用可能なトレーニングサンプルを用いて、DROを介して一般化境界を提供する。
訳抜け防止モード: • フレームワークと利用可能なトレーニングサンプルの使用。 DROを通して一般化境界を提供する
0.82
program and prove that the introduced DRO model is optimal in a precise statistical sense. 導入したDROモデルが正確な統計的意味で最適であることをプログラムし、証明する。 0.69
• We show that the optimization problems characterizing the distribution shift and the DRO program •分散シフトとDROプログラムを特徴付ける最適化問題を示す。 0.74
can be efficiently solved by exploiting convex duality and recent accelerated first order methods. 凸双対性と最近の加速一階法を利用して効率よく解ける。 0.59
• We demonstrate the versatility of the proposed Minimum Discriminating based DRO (MDI-DRO) method on two distinct problem classes: Training classifiers on systematically biased data and the OPE for Markov decision processes. • 系統的バイアスデータに基づく分類器の訓練とマルコフ決定過程のためのOPEの2つの異なるクラスに対して提案した最小判別に基づくDRO(MDI-DRO)法の汎用性を示す。 0.78
In both problems MDI-DRO outperforms existing approaches. どちらの問題においても、MDI-DROは既存のアプローチよりも優れている。 0.34
The proofs of all technical results are relegated to Appendix 7. すべての技術的結果の証明はAppendix 7に委ねられている。 0.71
2 Related work For supervised learning problems, there is a rich literature in the context of covariate shift adaptation [54,60]. 2関連作品 教師付き学習問題に対しては,共変量シフト適応 [54,60] の文脈で豊かな文献が存在する。 0.70
A common approach is to address this distribution shift via importance sampling, more precisely by weighting the training loss with the ratio of the test and training densities and then minimize the so-called importance weighted risk (IWERM), see [54, 59, 60, 72]. 一般的なアプローチは、より正確にトレーニング損失をテストとトレーニング密度の比率で重み付けし、[54, 59, 60, 72]のような重要度重み付きリスク(iwerm)を最小化することで、この分散シフトに対処することである。 0.73
While this importance weighted empirical risk is an unbiased estimator of the test risk, the method has two major limitations: It tends to produce an estimator with high variance, making the resulting test risk large. この重要性が重み付けされた経験的リスクは、テストリスクの偏りのない推定子であるが、この方法には2つの大きな制限がある。
訳抜け防止モード: この重み付けされた経験的リスクは、テストリスクの偏りのない推定手段である。 方法には2つの大きな制限があります 高いばらつきを持つ推定器を生成する傾向があり、その結果、テストのリスクが大きくなる。
0.60
Further, the ratio of the training and test densities must be estimated which in general is difficult as the test distribution is unknown. さらに、試験分布が不明なため、一般に困難である訓練密度と試験密度の比率を推定する必要がある。 0.74
There are modifications of IWERM reducing the resulting variance [12,14,57], for example by exponentially flattening the importance ratios [54]. IWERMは、例えば、[54]の比を指数的に平坦化することによって、[12,14,57]の分散を減少させる。
訳抜け防止モード: IWERMの修正により、結果のばらつきが減少する[12,14,57 ]。 例えば、[54 ] の比を指数関数的に平坦化する。
0.70
For the estimation of the importance weights several methods have been presented, see for example [71]. 重要度の推定には、例えば[71]など、いくつかの方法が提案されている。 0.69
These methods, however crucially rely on having data from both training and test distribution. しかし、これらの手法は、トレーニングとテストの配布の両方からのデータを持つことに大きく依存している。 0.47
For a treatment of other distribution shifts, we refer the reader to [47] and references therein. 他の分布シフトの処理については、[47] を参照し、それを参照する。 0.66
There is a vast literature on OPE methods which we will not attempt to summarize. OPEの手法に関する膨大な文献があり、要約しようとはしません。 0.71
In a nutshell, OPE methods can be grouped into three classes: a first class of approaches that aims to fit a model from the available data and uses this model then to estimate the performance of the given evaluation policy [1,35,38]. 簡単に言うと、opeメソッドは以下の3つのクラスにグループ化することができる。 利用可能なデータからモデルに適合し、このモデルを使用して、与えられた評価ポリシーのパフォーマンスを推定するアプローチの第1クラス [1,35,38]。
訳抜け防止モード: 簡単に言えば、OPEメソッドは3つのクラスに分類できる : 利用可能なデータからモデルに適合することを目的としたアプローチの第一級 このモデルを使って 所定の評価方針[1,35,38]のパフォーマンスを見積もる。
0.85
A second class of methods are based on invoking the idea of importance sampling to model the underlying distribution shift from behavioural to evaluation policy [28, 46, 66]. 第2の手法は、重要サンプリングの概念を起動して、行動から評価方針への分散シフトをモデル化する [28, 46, 66]。
訳抜け防止モード: 第二の手法は、重要サンプリングのアイデアを呼び出すことに基づいている 行動から評価方針[28,46,66]への分布シフトをモデル化する。
0.79
The third, more recent, class of methods combines the first two classes [9, 23, 31, 67]. 第3の、より最近のメソッドのクラスは、最初の2つのクラス[9, 23, 31, 67]を組み合わせる。 0.78
Key reasons for the popularity of DRO in machine learning are the ability of DRO models to regularize learning problems [33, 52, 53] and the fact that the underlying optimization problems can often be exactly reformulated as finite convex programs solvable in polynomial time [4, 7]. 機械学習におけるDROの人気の主な理由は、DROモデルが学習問題を正規化する能力 [33, 52, 53] と、基礎となる最適化問題を多項式時間で解ける有限凸プログラムとして正確に再構成できるという事実 [4, 7] である。 0.86
Such reformulations hold for a variety of ambiguity sets such as: regions defined by moments [8, 19, 25, 70], φ-divergences [5, 37, 40], このような再構成は、moments [8, 19, 25, 70], φ-divergences [5, 37, 40] によって定義される領域のような様々な曖昧性集合に対して成り立つ。 0.71
2 2 0.85
英語(論文から抽出)日本語訳スコア
Wasserstein ambiguity sets [33, 39], or maximum mean discrepancy ambiguity sets [32, 56]. Wasserstein ambiguity set [33, 39], or maximum mean discrepancy ambiguity set [32, 56]。 0.72
DRO naturally seems a convenient tool when analyzing “small” distribution shifts as it seeks models that perform well “sufficiently close” to the training sample. droは、トレーニングサンプルと“十分に近い”モデルを求めるため、“小さな”分布シフトを分析するのに、当然便利なツールのように思える。
訳抜け防止モード: DROは当然、“小さな”分布の変化を分析するのに便利なツールに思える。 トレーニングサンプルに対して“十分に近接”するモデルを求める。
0.79
However, modelling a general distribution shift via DRO seems difficult and recent interest has focused on special cases such as adversarial example shifts [22] or label shifts [73]. しかし、DROによる一般分布シフトのモデル化は困難に思われ、近年では逆例シフト[22]やラベルシフト[73]といった特殊なケースに注目が集まっている。 0.73
To the best of our knowledge, the proposed idea of combining DRO with the principle of minimum discriminating information has not been considered yet. 我々の知る限りでは、droと最小識別情報の原則を組み合わせるという提案は未だ検討されていない。
訳抜け防止モード: 私たちの知る限りでは、提案されたアイデアは DROと最小識別情報の原理を組み合わせる まだ検討されていない。
0.73
3 Problem statement and motivating examples 3 問題文と動機づけ例 0.78
We study learning problems of the form 我々は形式の学習問題を研究する 0.86
min θ∈Θ R(θ, Pf ), ミニθθθθ R(θ, Pf ) 0.61
(3.1) where R(θ, Pf ) = EPf [L(θ, ξ)] denotes the risk of an uncertain real-valued loss function L(θ, ξ) that depends on the parameter θ ∈ Θ ⊂ Rn to be estimated as well as a random vector ξ ∈ Ξ ⊂ Rm governed by the probability distribution Pf . (3.1) ここで r(θ, pf ) = epf [l(θ, )] は、確率分布 pf によって支配される確率ベクトル θ ∈ θ , rn だけでなく、推定されるパラメータ θ ∈ θ , rn に依存する不確定な実値損失関数 l(θ, ) のリスクを表す。 0.78
In statistical learning, it is usually assumed that Pf is unknown but that we have access to independent samples from Pf . 統計的学習では、pf は未知であるが、pf から独立したサンプルにアクセスできると仮定される。 0.69
This paper departs from this standard scenario by assuming that there is a distribution shift. 本論文は,分布シフトが存在することを前提に,この標準的なシナリオから逸脱する。 0.69
We first state our formal assumption about the shift, and provide concrete examples below. まず、シフトに関する正式な仮定を述べ、以下の具体例を示します。 0.63
Specifically, we assume to have access to samples from a distribution P (cid:54)= Pf and that Pf is only known to belong to the distribution family 具体的には、分布P(cid:54)=Pfからサンプルにアクセスでき、Pfは分布ファミリーに属することが知られているのみである。 0.83
(3.2) encoded by a measurable feature map ψ : Ξ → Rd and a compact convex set E ⊂ Rd. 3.2) 可測特徴写像 ψ : s → rd とコンパクト凸集合 e s rd によって符号化される。 0.73
In view of the principle of minimum discriminating information, we identify Pf with the I-projection of P onto Π. Definition 3.1 (Information projection). 最小判別情報の原理を考えると、Pf は P の定義 3.1 (情報投影) への I-射影と同一視される。 0.76
The I-projection of P ∈ P(Ξ) onto Π is defined as P ∈ P(a) の t への I-射影は、次のように定義される。 0.56
Π = {Q ∈ P(Ξ) : EQ [ψ(ξ)] ∈ E} s = {Q ∈ P(a) : EQ[a(a)] ∈ E} である。 0.82
f (P) = arg min Q∈Π f (p) = arg min qhtmlπ 0.75
D(Q(cid:107)P), D(Q(cid:107)P) 0.88
(3.3) where D(Q(cid:107)P) denotes the relative entropy of Q with respect to P. (3.3) ここで D(Q(cid:107)P) は P に関する Q の相対エントロピーを表す。 0.82
In the following, we equip Π with the topology induced by the total variation distance. 以下に示すように、全変動距離によって誘導される位相に を割り当てる。 0.56
In this case, one can show that the I-projection exists whenever Π is closed [16, Theorem 2.1]. この場合、I-射影 (I-射影) が閉であるときに必ず存在することを示すことができる [16, Theorem 2.1]。
訳抜け防止モード: この場合、それを示せる。 I - 射影は が閉であるときに存在する [16, Theorem 2.1 ]。
0.70
Note that f (P) = P if P ∈ Π. 注意: f (P) = P は P ∈ s である。 0.87
In the remainder, we assume that P (cid:54)∈ Π and that P is only indirectly observable through independent training 残りの例では、P(cid:54) ) および P は独立トレーニングによって間接的にのみ観測可能であると仮定する。 0.71
samples (cid:98)ξ1, . サンプル (cid:98) =1。 0.68
. . ,(cid:98)ξN drawn from P. . . (cid:98) は p から引き出された。 0.77
Example 3.1 (Logistic regression). 例 3.1 (ロジスティック回帰)。 0.76
Assume that ξ = (x, y), where x ∈ Rm−1 is a feature vector of patient data (e g , a patient’s age, sex, chest pain type, blood pressure, etc. x ∈ Rm−1 は患者のデータ(例えば、患者の年齢、性別、胸痛の種類、血圧など)の特徴ベクトルである。
訳抜け防止モード: x ∈ rm−1 が患者データの特徴ベクトル(例えば、x, y)であると仮定する。 患者の年齢、性別、胸痛タイプ、血圧など。
0.63
), and y ∈ {−1, 1} a label indicating the occurrence of a heart disease. ) と y ∈ {−1, 1} は心臓病の発生を示すラベルである。 0.76
Logistic regression models the conditional distribution of y given x by a logistic function Prob(y|x) = [1 + exp(−y · θ(cid:62)x)]−1 parametrized by θ ∈ Rm−1. ロジスティック回帰は、対数関数 Prob(y|x) = [1 + exp(−y · θ(cid:62)x)]−1 によって θ ∈ Rm−1 でパラメータ化された x の条件分布をモデル化する。 0.80
The maximum likelihood estimator for θ is found by minimizing the empirical average of the logistic loss function L(θ, ξ) = log(1+exp(−y·θ(cid:62)x)) on the training samples. θ の最大確率推定値は、トレーニングサンプル上のロジスティック損失関数 l(θ, ) = log(1+exp(−y·θ(cid:62)x)) の経験平均を最小化することによって得られる。 0.83
If the samples pertain to a patient cohort, where elderly males are overrepresented w.r.t. サンプルが患者のコホートに関連する場合、老人はw.r.tで過剰に表現される。 0.60
the general population, then they are drawn from a training distribution P that differs from the test distribution Q. 一般人口は、テスト分布qとは異なる訓練分布pから引き出される。 0.57
Even if sampling from Q is impossible, we may know that the expected age of a random individual in the population falls between 40 and 45 years. Qからのサンプリングが不可能であったとしても、人口のランダムな個体の予想年齢が40歳から45歳の間であることがわかるかもしれない。 0.68
This information can be modeled as EQ [ψ(ξ)] ∈ E, where E = [(cid:96), u], (cid:96) = 40, u = 45 and ψ(ξ) projects ξ to its ‘age’-component. この情報は、E = [(cid:96), u], (cid:96) = 40, u = 45 および シュ(sh) のプロジェクトを 'age'-component にモデル化することができる。
訳抜け防止モード: この情報は eq [ ψ(\ ) ] ∈ e としてモデル化できる。 ここで e = [ ( cid:96 ), u ], ( cid:96 ) = 40 である。 u = 45 と ψ(\ ) のプロジェクトは、その ' age'-component である。
0.79
Other available prior information can be encoded similarly. 他の利用可能な事前情報は同様にエンコードできる。 0.70
Via the principle of minimum discriminating information, we then minimize the expected log-loss under the I-projection of the data-generating distribution P onto the set Π defined in (3.2). 最小判別情報の原理により、データ生成分布 P の I-射影の下での期待されるログロスを 3.2) で定義される集合に最小化する。 0.78
Example 3.2 (Production planning). 例 3.2 (生産計画) 0.82
Assume that θ ∈ R and ξ ∈ R denote the production quantity and the demand of a perishable good, respectively, and that the loss function L(θ, ξ) represents the sum of the production cost and a penalty for unsatisfied demand. θ ∈ R と φ ∈ R はそれぞれ生産量と消耗品の需要を表し、損失関数 L(θ, >) は生産コストと不満足な需要に対するペナルティの和を表すと仮定する。 0.69
To find the optimal production quantity, one could minimize the average loss in view of training samples drawn from the historical demand distribution P. However, a disruptive event such as the beginning of a recession might signal that demand will decline by 最適生産量を求めるためには、過去の需要分布Pから引き出されたトレーニングサンプルの平均損失を最小化することができるが、景気後退の開始のような破壊的な出来事は、需要が減少することを示しているかもしれない。 0.72
3 3 0.85
英語(論文から抽出)日本語訳スコア
at least η%. 少なくともη%である。 0.75
The future demand distribution Q thus differs from P and belongs to a set Π of the form (3.2) defined through ψ(ξ) = ξ and E = [0, (1 − η)µ], where µ denotes the historical average demand. したがって、将来の需要分布 Q は P とは異なっており、μ が歴史的平均需要を表すような s と E = [0, (1 − η)μ] によって定義される形式 (3.2) の集合 s に属する。 0.84
By the principle of minimum discriminating information it then makes again sense to minimize the expected loss under the I-projection of P onto Π. 最小の識別情報の原理により、P の P 上への I-射影による期待損失を最小化することが再び意味を持つ。 0.74
Loosely speaking, the principle of minimum discriminating information identifies the I-projection f (P) as the least prejudiced and thus most natural model for Pf in view of the information that Pf ∈ Π. ゆるやかに言うと、最小識別情報の原理は i-射影 f (p) を pf ∈ π という情報の観点から pf の最小偏見、従って最も自然なモデルとして識別する。 0.73
The principle of minimum discriminating information is formally justified by the conditional limit theorem [17], which we paraphrase below using our notation. 最小識別情報の原理は条件付き極限定理[17]によって正式に正当化され、この定理は下記の記法を用いて言い換える。 0.67
Proposition 3.1 (Conditional limit theorem). 命題 3.1 (Conditional limit theorem)。 0.76
If the interior of the compact convex set E overlaps with the support of the pushforward measure P ◦ ψ−1, the I-projection Pf = f (P) exists and the moment-generating function EPf [etL(θ,ξ)] is finite for all t in a neighborhood of 0, then we have コンパクト凸集合 E の内部がプッシュフォワード測度 P の支持と重なり合うなら、I-射影 Pf = f (P) が存在し、モーメント生成函数 EPf [etL(θ, )] は 0 の近傍のすべての t に対して有限である。
訳抜け防止モード: コンパクト凸集合 E の内部が、プッシュフォワード測度 P {\displaystyle P} の支持と重なり合うとき、 I -射影 Pf = f ( P ) が存在し、その瞬間 - 関数 EPf [ etL(θ, > ) ] 0 の近傍の全ての t に対して有限で
0.76
N→∞ EP[L(θ, ξ)| 1 N→∞ EP[L(θ, s)| 1 0.99
lim N (cid:80)N i=1 ψ(ξi) ∈ E] = EPf [L(θ, ξ)] ∀θ ∈ Θ. リム N (cid:80)N i=1 >(>i) ∈ E] = EPf [L(θ, >)] >θ ∈ >。 0.71
In the context of Examples 3.1 and 3.2, the conditional limit theorem provides an intuitive justification for modeling distribution shifts via I-projections. 例 3.1 と 3.2 の文脈では、条件付き極限定理はI-射影による分布シフトをモデル化するための直観的な正当化を与える。 0.59
More generally, the following proposition suggests that any distribution shift can be explained as an I-projection onto a suitably chosen set Π. より一般に、次の提案は任意の分布シフトを適切な選択集合 π への i-射影として説明できることを示唆している。 0.58
Proposition 3.2 (Every distribution is an I-projection). 命題 3.2 (すべての分布はI-射影)。 0.65
If P, Q ∈ P(Ξ) such that Q (cid:28) P and if Π is a set of the form (3.2) defined through ψ(ξ) = log dQ p が q (cid:28) p であるような p, q ∈ p() で、π が ψ(\) = log dq で定義される形式 (3.2) の集合であるとき 0.81
dP (ξ) and E = {D(Q(cid:107)P)}, then Q = f (P). dP と E = {D(Q(cid:107)P)} ならば、Q = f (P) である。 0.83
The modelling of arbitrary distribution shifts via the I-projection according to Proposition 3.2 has an interesting application in the off-policy evaluation problem for Markov decision processes (MDPs). 命題3.2に基づくi-射影による任意の分布シフトのモデル化は、マルコフ決定過程(mdps)のオフポリシー評価問題に興味深い応用がある。 0.74
Example 3.3 (Off-policy evaluation). 例 3.3 off-policy evaluation)。 0.67
Consider an MDP (S,A, Q, c, s0) with finite state and action spaces S and A, respectively, transition kernel Q : S × A → R, cost-per-stage function c : S × A → R and initial state s0. 有限状態と作用空間 S と A を持つ MDP (S,A, Q, c, s0) をそれぞれ、遷移核 Q : S × A → R, コスト・パー・ステージ関数 c : S × A → R, 初期状態 s0 とする。 0.89
A stationary Markov policy π is a stochastic kernel that maps states to probability distributions over A. 定常マルコフポリシー π は A 上の確率分布に状態を写像する確率核である。 0.68
We use π(a|s) to denote the probability of selecting action a in state s under policy π. π(a|s) はポリシー π の下での状態 s における作用 a を選択する確率を表す。 0.77
The long-run average cost generated by π can be expressed as πによって生成される長期平均コストは、次のように表現できる。 0.57
(cid:80)T−1 (cid:80)t−1 0.62
t=0 Eπ s0 [c(st, at)]. t=0 Eπ s0 [c(st, at)] 0.59
Each policy induces an occupation measure µπ on S × A defined through the state-action frequencies 各政策は状態-作用周波数で定義されるS×A上の職業測度μπを誘導する 0.78
µπ(x, a) = limT→∞ 1 T μπ(x, a) = limT→∞ 1 T 0.92
M =(cid:8)µ ∈ ∆S×A :(cid:80) M =(cid:8)μ ∈ >S×A :(cid:80) 0.83
Vπ = limT→∞ 1 T Vπ = limT→∞ 1 T 0.78
(cid:80)T−1 a(cid:48)∈A µ(s(cid:48), a(cid:48)) −(cid:80) (cid:80)t−1 a(cid:48)ftpa μ(s(cid:48), a(cid:48)) −(cid:80) 0.78
t=0 Pf s0 [(st, at) = (s, a)] ∀s ∈ S, a ∈ A, t=0 Pf s0 [(st, at) = (s, a)] >s ∈ S, a ∈ A, 0.69
s∈S(cid:80) sıS (cid:80) 0.63
a∈A Q(s(cid:48)|s, a)µ(s, a) = 0 ∀s(cid:48) ∈ S(cid:9), a・A Q(s(cid:48)|s, a)μ(s, a) = 0 >s(cid:48) ∈ S(cid:9) 0.80
see [27, Chapter 6]. 27章第6章を見てください。 0.67
One can additionally show that µπ belongs to the polytope さらに μπ がポリトープに属することを示すことができる 0.74
measure µ ∈ M induces a policy πµ defined through πµ(a|s) = µ(s, a)/(cid:80) μ ∈ m は πμ(a|s) = μ(s, a)/(cid:80) で定義されるポリシー πμ を誘導する 0.81
where ∆S×A represents the simplex of all probability mass functions over S×A. S×A 上の全ての確率質量関数の単純度を表す。 0.67
Conversely, each occupation a(cid:48)∈A µ(s, a(cid:48)) for all s ∈ S and a ∈ A. 逆に、すべての s ∈ s と a ∈ a に対する各職業 a(cid:48) は μ(s, a(cid:48)) である。 0.79
Assuming that all parameters of the MDP except for the cost c are known, the off-policy evaluation problem asks for an estimate of the long-run average cost Vπe of an evaluation policy πe based on a trajectory of states, actions and costs generated by a behavioral policy πb. コストc以外のMPPのパラメータが全て知られていると仮定すると、オフポリティィ評価問題は、行動ポリシーπbによって生成される状態、行動およびコストの軌跡に基づいて、評価ポリシーπeの長期平均コストVπeの推定を求める。 0.83
This task can be interpreted as a degenerate learning problem without a parameter θ to optimize if we define ξ = c(s, a) and set L(θ, ξ) = ξ. このタスクは、パラメータ θ を使わずに退化学習問題として解釈でき、 s = c(s, a) と l(θ, ]) = s を定める場合に最適化することができる。 0.66
Here, a distribution shift emerges because we must evaluate the expectation of ξ under Q = µe ◦ c−1 given training samples from P = µb ◦ c−1, where µb and µe represent the occupation measures corresponding to πb and πe, respectively. ここで、分布シフトが現れるのは、p = μb , c−1 からの訓練サンプルが与えられたとき、q = μe , c−1 の下で s の期待値を評価する必要があるためである。 0.75
Note that P and Q are unknown because c is unknown. c が未知であるため、P と Q は未知である。 0.82
Moreover, as the policy πe generates different state-action trajectories than πb, the costs generated under πe cannot be inferred from the costs generated under πb even though πb and πe are known. さらに、ポリシー πe は πb と異なる状態-作用軌道を生成するため、πb と πe が知られているにもかかわらず πb で生成されたコストから πe で生成されたコストを推定することはできない。 0.63
Note also that Q coincides with the I-projection Pf of P onto the set Π defined in Proposition 3.2. また q は p の i-射影 pf と命題 3.2 で定義される集合 π に一致する。 0.60
The corresponding feature map ψ as well as the set E can be computed without knowledge of c provided that c is invertible. c が可逆であるような c の知識を使わずに、対応する特徴写像 y と集合 E を計算できる。 0.68
Indeed, in this case we have 実際、この場合、私たちは 0.80
and E =(cid:8)D(µe ◦ c−1(cid:107)µb ◦ c−1)(cid:9) = {D(µe(cid:107)µb)} E =(cid:8)D(μe ) c−1(cid:107)μb ) c−1)(cid:9) = {D(μe(cid:107)μb)} 0.80
ψ(ξi) = log dµe◦c−1 ψ(i) = log dμe>c−1 0.62
dµb◦c−1 (ξi) = log µe(si,ai) dμb\c−1(i) = log μe(si,ai) 0.73
µb(si,ai) 4 μb(si,ai) 4 0.91
英語(論文から抽出)日本語訳スコア
R(cid:63)(θ,(cid:98)Pf R(cid:63)(θ,(cid:98)Pf 0.94
N ), for any si ∈ S, ai ∈ A and ξi = c(si, ai). N)。 任意の si ∈ S に対して、ai ∈ A と yi = c(si, ai) が成り立つ。 0.74
Note that as S and A are finite, c is generically invertible, that is, c can always be rendered invertible by an arbitrarily small perturbation. S と A が有限であるため、c は一般的に可逆であり、c は任意の小さな摂動によって常に可逆である。 0.67
In summary, we may conclude that the off-policy evaluation problem reduces to an instance of (3.1). 要約すると、オフポリシー評価問題は (3.1) のインスタンスに還元される。 0.63
From now on we use (cid:98)PN = 1 これからは (cid:98)PN = 1 を使う。 0.75
(cid:80)N i=1 δ(cid:98)ξi (cid:80)n i=1 δ(cid:98)>i 0.68
and (cid:98)Pf と (cid:98)Pf 0.84
N to denote the empirical distribution of the training samples and its I-projection onto Π, respectively. n は、訓練サンプルとその i-射影の π への経験的分布を表す。 0.68
As the true data-generating distribution P and its I-projection Pf are unknown, it makes sense to replace them by their empirical counterparts. 真のデータ生成分布 p とその i-射影 pf は未知であるため、それらを置き換えるのが合理的である。 0.73
However, the resulting empirical risk minimization problem is susceptible to overfitting if the number of training samples is small relative to the feature dimension. しかしながら、結果として生じる経験的リスク最小化問題は、訓練サンプルの数が特徴量に対して小さい場合、過度に適合する可能性がある。 0.62
In order to combat overfitting, we propose to solve the DRO problem オーバーフィッティングと戦うために,我々はDRO問題を解くことを提案する。 0.71
N which minimizes the worst-case risk over all distributions close to (cid:98)Pf N これは(cid:98)pfに近いすべてのディストリビューションで最悪のリスクを最小限に抑える 0.72
J (cid:63) N = min θ∈Θ j (cid:63) n = min θθθθ 0.86
N . Here, R(cid:63) is defined through N! ここで R(cid:63) は 0.69
(3.5) and thus evaluates the worst-case risk of a given parameter θ ∈ Θ in view of all distributions Q that have a relative entropy distance of at most r from a given nominal distribution P(cid:48) ∈ Π. (3.5) であり、与えられた公称分布 p(cid:48) ∈ π から最大 r の相対エントロピー距離を持つすべての分布 q の観点から、与えられたパラメータ θ ∈ θ の最悪のケースリスクを評価する。 0.82
In the remainder we use J (cid:63) and θ(cid:63) 残りは J (cid:63) と θ (cid:63) を使います。 0.77
N to denote the minimum and a minimizer of problem (3.4), respectively. N はそれぞれ問題の最小値(3.4)と最小値を表す。 0.79
R(cid:63)(θ, P(cid:48)) = supQ∈Π {R(θ, Q) : D(P(cid:48)(cid:107) Q) ≤ r} R(cid:63)(θ, P(cid:48)) = supQコメント {R(θ, Q) : D(P(cid:48)(cid:107) Q) ≤ r} 0.89
N Main results. The main theoretical results of this paper can be summarized as follows. N 主な結果。 本論文の主な理論的結果は以下の通りである。 0.77
1. Out-of-sample guarantee. 1. サンプル外保証。 0.75
We show that the optimal value of the DRO problem (3.4) provides an upper DRO問題の最適値(3.4)が上限となることを示す。 0.76
confidence bound on the risk of its optimal solution θ(cid:63) 最適解θ(cid:63)のリスクに拘束された信頼 0.80
N . Specifically, we prove that N! 具体的に言えば 0.58
P(cid:0)R(θ(cid:63) P(cid:0)R(θ(cid:63) 0.86
N , Pf ) > J (cid:63) N N , Pf ) > J (cid:63) N 1.00
(cid:1) ≤ e−rN +o(N ), (cid:1)≤ e−rN +o(N) 0.83
(3.4) (3.6) (3.4) (3.6) 0.78
where Pf = f (P) is the I-projection of P. If Ξ is finite, then (3.6) can be strengthened to a finite sample bound that holds for every N if the right hand side is replaced with e−rN (N + 1)|Ξ|. Pf = f (P) が P の I-射影(英語版) であるとき、n が有限ならば(3.6) は、右辺が e-rN (N + 1)|\| に置き換わるとき、すべての N に対して持つ有限標本境界に強化することができる。 0.74
2. Statistical efficiency. In a sense to be made precise below, the DRO problem (3.4) provides the least 2. 統計的効率。 下記の意味では、DRO問題(3.4)は最小限である。 0.79
conservative approximation for (3.1) whose solution satisfies the out-of-sample guarantee (3.6). 解がサンプル外保証(3.6)を満たす3.1の保守近似。 0.81
3. Computational tractability. 3. 計算的トラクタビリティ。 0.75
We prove that the I-projection(cid:98) Pf gradient method whenever one can efficiently project onto E. Given (cid:98)Pf I-射影(cid:98)Pf勾配法は、効率的にE. given (cid:98)Pfに射影できるときに必ず証明する。
訳抜け防止モード: I-射影(cid:98)Pf勾配法はいつでも証明できる。 given ( cid:98)Pf を効率よく E に投影できる
0.66
N can be computed via a regularized fast N can be found by solving a tractable convex program whenever Θ is a convex and conic representable set, while L(θ, ξ) is a convex and conic representable function of θ for any fixed ξ. n を正規化高速 n で計算できるのは、θ が凸かつ円錐表現可能集合であるときいつでも、可搬凸プログラムを解いて、l(θ, ) は任意の固定された θ に対して θ の凸かつ円錐表現可能関数である。 0.69
N , we then show that θ(cid:63) n ,次に θ(cid:63) を示す。 0.73
4 Statistical guarantees Throughout this section, we assume that the sets Θ and Ξ are compact and that the risk R : Θ × Π → R is a continuous function to avoid technical discussions of little practical relevance. 4 統計保証 この節を通して、集合 ′ と ′ はコンパクトであり、リスク R : ′ × ′ → R は、ほとんど実践的関係の技術的な議論を避けるための連続函数であると仮定する。 0.77
The DRO problem (3.4) is constructed from the I-projection of the empirical distribution, which, in turn, is constructed from the given training samples. dro問題(3.4)は、与えられたトレーニングサンプルから構築した経験的分布のi-射影から構成される。 0.63
Thus, θ(cid:63) N constitutes a data-driven decision. したがって、θ(cid:63) N はデータ駆動決定を構成する。 0.61
Other data-driven decisions can be obtained by solving surrogate optimization problems of the form その他のデータ駆動決定は、フォームの代理最適化問題を解くことで得られる。 0.58
lim sup N→∞ lim sup N→∞ 0.78
1 N log P (cid:16) 1N log P~ (cid:16) 0.79
R((cid:98)θN , Pf ) > (cid:98)JN R((cid:98)θN , Pf ) > (cid:98)JN 0.88
(cid:17) ≤ −r (cid:17)≤ −r 0.88
5 where (cid:98)R : Θ × Π → R is a continuous function that uses the empirical I-projection (cid:98)Pf risk R(θ, Pf ) of θ under the true I-projection Pf . 5 ここで (cid:98)R : は、実 I-射影 Pf の下で θ の経験的 I-射影 (cid:98)Pf リスク R(θ, Pf ) を利用する連続函数である。 0.81
From now on we thus refer to (cid:98)R as a predictor, and we use (cid:98)JN and(cid:98)θN to denote the minimum and a minimizer of problem (4.1), respectively. これからは (cid:98)R を予測子と呼び、 (cid:98)JN と (cid:98)θN をそれぞれ最小値と最小値 (4.1) を表すために使用する。 0.79
We call a predictor (cid:98)R admissible if (cid:98)JN provides an upper confidence bound on the risk of (cid:98)θN in the sense that 予測器 (cid:98)R が許容できるならば (cid:98)JN は (cid:98)θN のリスクに縛られる高い信頼を与える。 0.81
N to predict the true N to predict the true 0.85
θ∈Θ (4.1) (cid:98)JN = min θ∈Θ (4.1) (cid:98)JN = min 0.76
(cid:98)R(θ,(cid:98)Pf (cid:98)R(θ,(cid:98)Pf 0.94
N ), (4.2) N)。 (4.2) 0.71
英語(論文から抽出)日本語訳スコア
for some prescribed r > 0. 与えられた r > 0 に対して。 0.66
The inequality (4.2) requires the true risk of the minimizer (cid:98)θN to exceed the optimal value (cid:98)JN of the surrogate optimization problem (4.1) with a probability that decays exponentially 不等式 (4.2) では、最小値 (cid:98)θN の真のリスクが、指数関数的に崩壊する確率を持つ代理最適化問題 (4.1) の最適値 (cid:98)JN を超える必要がある。 0.68
at rate r as the number N of training samples tends to infinity. トレーニングサンプルのNは無限大になる傾向にある。 0.59
The following theorem asserts that the DRO predictor R(cid:63) defined in (3.5), which evaluates the worst-case risk of any given θ across a relative entropy ball of radius r, almost satisfies (4.2) and is thus essentially admissible. 以下の定理は (3.5) で定義される DRO 予測器 R(cid:63) が半径 r の相対エントロピー球にまたがる任意の θ の最悪のケースリスクを評価し、ほぼ満足する(4.2)。 0.80
Theorem 4.1 (Out-of-sample guarantee). Theorem 4.1 (Out-of-sample guarantee)。 0.60
If R(cid:63) is defined as in (3.5) and ε > 0, then (cid:98)R = R(cid:63) + ε is a R(cid:63) が (3.5) と ε > 0 で定義されるなら、 (cid:98)R = R(cid:63) + ε は a である。 0.83
continuous function and represents an admissible data-driven predictor. 連続関数であり、許容データ駆動予測器を表す。 0.68
predictor, then we have limN→∞ J (cid:63) 予測器 では limn→∞ j (cid:63) 0.76
N , Pf ) of the data-driven decision θ(cid:63) データ駆動決定θ(cid:63)のN, Pf ) 0.83
Theorem 4.1 implies that, for any fixed ε > 0, the DRO predictor R(cid:63) provides an upper confidence bound J (cid:63) N + ε on the true risk R(θ(cid:63) N that becomes increasingly reliable as N grows. 定理 4.1 は、任意の固定 ε > 0 に対して、DRO 予測器 R(cid:63) は、N が成長するにつれてますます信頼される真のリスク R(θ(cid:63)N 上の上限 J (cid:63) N + ε を与えることを意味する。 0.73
Of course, the reliability of any upper confidence bound trivially improves if it is increased. もちろん、上層的信頼感の信頼性は、増大しても自明に向上する。 0.78
Finding some upper confidence bound is thus easy. 高い信頼関係を見つけるのは簡単です。 0.57
The next theorem shows that the DRO predictor actually provides the best possible (asymptotically smallest) upper confidence bound. 次の定理は、DRO予測器が実際には最高の(漸近的に最小の)高信頼境界を与えることを示している。
訳抜け防止モード: 次の定理は DRO予測器は、実際には最高の(漸近的に最小の)上層信頼境界を提供する。
0.67
N ≤ limN→∞ (cid:98)JN P-almost surely irrespective of P ∈ P(Ξ). N ≤ limN→∞ (cid:98)JN P-はほぼ確実に P ∈ P(a) とは無関係である。 0.67
Theorem 4.2 (Statistical efficiency). 定理 4.2 (統計効率)。 0.74
If R(cid:63) is defined as in (3.5) and (cid:98)R is any admissible data-driven One readily verifies that the limits in Theorem 4.2 exist. R(cid:63) が (3.5) で定義され、 (cid:98)R が任意の許容データ駆動型であるなら、Theorem 4.2 の極限は容易に検証できる。 0.65
Indeed, if (cid:98)R is an arbitrary data-driven predictor, then the optimal value (cid:98)JN of the corresponding surrogate optimization problem converges P-almost surely to minθ∈Θ (cid:98)R(θ, Pf ) as N tends infinity provided that the training samples are drawn independently minθ∈Θ (cid:98)R(θ, Pf ) is continuous in Pf ∈ Π thanks to Berge’s maximum theorem [6, pp. 実際、(cid:98)R が任意のデータ駆動予測子であれば、対応するサロゲート最適化問題の最適値 (cid:98)JN は、ベルゲの最大定理 [6, pp] のおかげで、トレーニングサンプルが独立して minθ思想 (cid:98)R(θ, Pf ) で連続であるならば、N の傾向が無限大であるため、P-al mostably に収束する。 0.81
115–116], which applies because (cid:98)R is continuous and Θ is compact. これは (cid:98)r が連続で θ がコンパクトであるためである。 0.67
Second, the I-projection Pf = f (P) is continuous in P ∈ P(Ξ) ment [20, Lemma 6.2.12]. 第二に、I-射影 Pf = f (P) は P ∈ P( ) ment [20, Lemma 6.2.12] において連続である。 0.75
Third, the strong law of large numbers implies that the empirical distribution(cid:98) PN 第三に、大きな数の強い法則は、経験的分布(cid:98)pn 0.76
from P. This is a direct consequence of the following three observations. これは以下の3つの観測の直接的な結果である。 0.75
First, the optimal value function thanks to [61, Theorem 9.17], which applies because the relative entropy is strictly convex in its first argu- まず 最適値関数は 61, Theorem 9.17]のおかげで、 相対エントロピーは、その最初のアーグにおいて厳密に凸であるので適用される
訳抜け防止モード: まず 最適値関数は 61, Theorem 9.17] のおかげで 相対エントロピーがその最初のアーグにおいて厳密に凸であるから適用される
0.64
converges weakly to the data-generating distribution P as the sample size N grows. サンプルサイズNが大きくなると、データ生成分布Pに弱収束する。 0.81
Therefore, we have N→∞ (cid:98)JN = lim したがって、我々は N→∞ (cid:98)JN = lim 0.83
lim N→∞ min θ∈Θ リム n→∞ min θθθθ 0.57
(cid:16) (cid:98)R (cid:16) (cid:98)r 0.78
θ, f ((cid:98)PN ) θ, f ((cid:98)PN ) 0.98
(cid:17) (cid:16) (cid:17) (cid:16) 0.78
(cid:98)R (cid:16) (cid:98)r (cid:16) 0.78
N→∞(cid:98)PN N→∞(cid:98)PN 0.71
lim (cid:17)(cid:17) リム (cid:17)(cid:17) 0.59
= min θ∈Θ θ, f =minθθθθ θ, f 0.76
= min θ∈Θ (cid:98)R(θ, Pf ) P-a.s. =minθθθθ (cid:98)R(θ, Pf )P-a。 0.73
In summary, Theorems 4.1 and 4.2 assert that the DRO predictor R(cid:63) is (essentially) admissible and that it is the least conservative of all admissible data-driven predictors, respectively. 要約すると、Theorems 4.1 と 4.2 は、DRO予測器 R(cid:63) は(本質的には)許容可能であり、データ駆動予測器の中で最も保守的であると主張している。 0.61
Put differently, the DRO predictor makes the most efficient use of the available data among all data-driven predictors that offer the same out-of-sample guarantee (4.2). 異なることに、DRO予測器は、同じサンプル外保証(4.2)を提供するすべてのデータ駆動予測器の中で、利用可能なデータを最も効率的に利用する。 0.62
In the special case when Ξ is finite, the asymptotic out-of-sample guarantee (4.2) can be strengthened to a finite sample guarantee that holds for every N ∈ N. 特殊の場合において、asymsymotic out-of-sample guarantee (4.2) はすべての N ∈ N に対して成り立つ有限標本保証に強化することができる。 0.83
Corollary 4.1 (Finite sample guarantee). Corollary 4.1 (Finite sample guarantee) 0.87
If R(cid:63) is defined as in (3.5), then R(cid:63) が (3.5) で定義されるなら 0.91
|Ξ| − r ∀N ∈ N. | | − r , N ∈ N。 0.83
(4.3) log P(cid:0)R(cid:63)(θ(cid:63) (4.3) log P(cid:0)R(cid:63)(θ(cid:63) 0.81
1 N N , Pf ) > J (cid:63) N 1N N , Pf ) > J (cid:63) N 0.89
(cid:1) ≤ log(N + 1) r(θ,(cid:98)Pf (cid:1) ≤ log(N + 1) r(θ,(cid:98)Pf 0.98
N We now temporarily use R(cid:63) explicit. N r(cid:63) を一時的に使用します。 0.76
Note that if r > 0 is kept constant, then R(cid:63) for R(θ, Pf ). r > 0 が定数であるなら、R(θ, Pf ) に対して R(cid:63) である。 0.84
Consistency can be enforced, however, by shrinking r as N grows. しかし、N が成長するにつれて r を縮めることで、一貫性を強制することができる。 0.48
Theorem 4.3 (Asymptotic consistency). Theorem 4.3(漸近一貫性) 0.82
If the assumptions of Proposition 3.1 hold and {rN}N∈N is a sequence of non-negative numbers with limN→∞ rN = 0, then the DRO predictor satisfies 命題 3.1 と {rN}N~N の仮定が limN→∞ rN = 0 の非負数の列であれば、DRO 予測子は満足する。 0.83
r to denote the DRO predictor defined in (3.5), which makes its dependence on r N ) is neither an unbiased nor a consistent estimator r は (3.5) で定義される DRO 予測子を表し、これは r N への依存を非バイアスでも一貫した推定子でもない。 0.76
rN N→∞ R(cid:63) lim N→∞ R(cid:63) lim RN N→∞ R(cid:63) lim N→∞ R(cid:63) lim 0.67
rN N ) = R(θ, Pf ) P-a.s. ∀θ ∈ Θ, N ) = min θ∈Θ RN N ) = R(θ, Pf ) P-a.s.
訳抜け防止モード: RN n ) = r(θ, pf ) p - a.s . θ ∈ θ, n ) = min θθθθ
0.73
R(θ, Pf ) P-a.s. R(θ, Pf ) P-a.s。 0.74
(θ,(cid:98)Pf ((cid:98)θN ,(cid:98)Pf (θ,(cid:98)Pf((cid:98) θN,(cid:98)Pf 0.91
(4.4a) (4.4b) (4.4a) (4.4b) 0.67
We now continue with the off-policy evaluation example introduced in Section 3 and show the corresponding DRO approach and its statistical guarantees. 現在、第3節で導入された非政治評価の例を継続し、対応するDROアプローチとその統計的保証を示す。 0.59
6 6 0.85
英語(論文から抽出)日本語訳スコア
Example 4.1 (Off-policy evaluation). 例 4.1 (オフポリシー評価)。 0.69
For the OPE problem introduced in Example 3.3, we aim to construct an estimator for the performance of the evaluation policy Vπe (c) = EfΠ(P)[ξ] based on the available behavioural policy and its incurred cost. 実例 3.3 で導入された OPE 問題に対して,評価ポリシ Vπe (c) = Ef\(P)[ ] の性能評価器を,利用可能な行動ポリシーとそのコストに基づいて構築することを目的とする。 0.84
As described in Example 3.3, we choose Π such that µe ◦ c−1 = f (P), where 例 3.3 で述べられているように、μe > c−1 = f (P) となるような s を選択する。 0.60
P = µb ◦ c−1 ∈ P(Ξ). P = μb > c−1 ∈ P(a) である。 0.74
Given the behavioural data ((cid:98)st,(cid:98) at) ∼ µb for t = 0, . 振舞いデータ(cid:98)st,(cid:98)a t)が与えられたとき、t = 0, である。 0.72
. . N − 1, consider the empirical (cid:80)N−1 counterpart of P as(cid:98)PN = 1 t=0 δc((cid:98)st,(cid:98 )at). . . n − 1 は、経験的 (cid:80)n−1 に対応する p を (cid:98)pn = 1 t=0 δc((cid:98)st,(cid:98 )at) とする。 0.80
While we assume in this paper that the samples ((cid:98)st,(cid:98) at) are i.i.d., N = R(cid:63)((cid:98)Pf この論文では、サンプル ((cid:98)st, (cid:98)at) が i.d., N = R(cid:63)((cid:98)Pf であると仮定する。 0.78
the underlying large deviation framework used in principle allows for a generalization to a single trajectory of correlated data [37, 62]. 原則として使用される大きな偏差フレームワークは、相関データ [37, 62] の単一の軌道への一般化を可能にする。 0.80
The proposed approximation of the value function under the evaluation policy Vπe is provided by J (cid:63) N ), where R(cid:63) is the DRO predictor (3.5), the admissibility guarantees provided by Corollary 4.1 using the fact that Ξ is finite provide the generalization bound ここで、r(cid:63) がdro予測子 (3.5) である j (cid:63) n により、s が有限であるという事実を用いて、corollary 4.1 が提供する許容保証が一般化される。
訳抜け防止モード: 評価ポリシ Vπe における値関数の近似は J ( cid:63 ) N ) により提供される。 R(cid:63 ) が DRO 予測子 (3.5 ) であるとき、その許容性保証は Corollary 4.1 によって与えられる。
0.77
N P (Vπe ≤ J (cid:63) N P (Vπe ≤ J (cid:63) 0.83
N ) ≥ 1 − (N + 1)|S|+|A|e−rN ∀P ∈ P(Ξ), N ) ≥ 1 − (N + 1)|S|+|A|e−rN >P ∈ P( ) 0.80
(4.5) that holds for all N ∈ N. (4.5) すべての N ∈ N に対して成り立つ。 0.82
5 Efficient computation N ) and the corresponding optimizer θ(cid:63) N . 5 効率的な計算 N)および対応するオプティマイザθ(cid:63)N。 0.72
N = f ((cid:98)PN ) for a given set Π of the form (3.2). n = f ((cid:98)pn ) は、形式 (3.2) の任意の集合 π に対して与えられる。 0.58
Given (cid:98)Pf given (cid:98)Pf 0.80
Motivated by the generalization and optimality guarantees provided by Theorems 4.1 and 4.2, we now discuss how to efficiently compute the corresponding optimal parameter θ(cid:63) N ). 定理 4.1 と 4.2 によって与えられた一般化と最適性保証に動機づけられ、対応する最適パラメータ θ(cid:63) n を効率的に計算する方法について議論する。 0.65
This compuN given the training この集団は訓練を施し 0.62
N = arg minθ∈Θ R(cid:63)(θ,(cid:98)Pf tation can be split into two steps: First, we aim to efficiently compute the estimator (cid:98)Pf data (cid:98)ξ1, . N = arg minθ発言 R(cid:63)(θ,(cid:98)Pf tation は2つのステップに分けられる: まず、推定器 (cid:98)Pf データ (cid:98) を効率的に計算することを目指す。 0.72
. . ,(cid:98)ξN and the corresponding empirical probability measure(cid:98)PN . . . および対応する経験的確率測度(cid:98)PN。 0.75
This boils down to evaluating the I-projection (cid:98)Pf R(cid:63)(θ,(cid:98)Pf Computation of I-projection. これにより、I-射影 (cid:98)Pf R(cid:63)(θ,(cid:98)Pf Computation of I-射影を評価する。 0.58
Computing the I-projection of an empirical probability measure(cid:98)PN built by exploiting the fact that (cid:98)PN is finitely supported and by using recent advances in convex optimization, 経験的確率測度(cid:98)PNのI-プロジェクションの計算は、(cid:98)PNが有限にサポートされ、凸最適化の最近の進歩を利用して行われる。 0.63
from the available data is a non-trivial task as it requires solving an infinite-dimensional optimization problem (3.3). 利用可能なデータからは無限次元最適化問題(3.3)を解く必要があるため、非自明な作業である。 0.63
Generally, one would expect that the difficulty of computing f (·) also depends on the structure of the set Π expressed via ψ and E, see (3.2). 一般に、 f (·) の計算の難しさは ψ と e で表される集合 π の構造にも依存すると期待できる(3.2)。 0.69
Following recent work [63], we show that for a large class of sets Π, f (·) can be computed in an efficient way. 最近の研究 [63] に続いて、集合の大規模なクラスにおいて、f(·) を効率的な方法で計算できることが示される。 0.75
Let η = (η1, η2) be a smoothing parameter with η1, η2 > 0, and let Lη > 0 be a learning rate that may depend on η. η = (η1, η2) を η1, η2 > 0 の滑らかなパラメータとし、Lη > 0 を η に依存する学習率とする。 0.82
In addition, define a function Gη : Rd → Rd through さらに、函数 Gη : Rd → Rd を定義する。 0.80
N , we then show how to compute では 計算の仕方をお見せします 0.57
Gη(z) = −πE(η−1 Gη(z) = −πE(η−1) 0.70
1 z) − η2z + 1 z) − η2z + 0.92
(cid:80)N j=1 ψ(ξj ) exp(−(cid:80)d (cid:80)N j=1 exp(−(cid:80)d (cid:80)N j=1 exp(−(cid:80)d (cid:80)N j=1 exp(−(cid:80)d 0.92
i=1 zi ψi(ξj )) i=1 zi ψi(j) である。 0.67
i=1 zi ψi(ξj )) i=1 zi ψi(j) である。 0.67
, (5.1) where πE is the projection operator onto the set E defined as πE (z) = arg minx∈E (cid:107)x − z(cid:107)2 2. , (5.1) πE は πE (z) = arg minx∂E (cid:107)x − z(cid:107)2 2 と定義される集合 E 上の射影作用素である。 0.81
Given the function Gη, the I-projection can be computed via Algorithm 1, basically a fast gradient method. 関数 gη が与えられると、i-射影はアルゴリズム1で計算でき、基本的には高速な勾配法である。 0.61
The complexity of evaluating the function Gη, as required by Algorithm 1, is determined by the projection operator onto E; for simple sets (e g , 2-norm balls, hybercubes) the solution is analytically available, while for more general cases (e g , simplex, 1-norm balls) it can be computed at relatively low computational effort, see [48, Section 5.4] for a comprehensive survey. アルゴリズム1が要求する関数gηの評価の複雑さは、e 上の射影演算子によって決定される: 単純集合(例えば、2-ノルム球、ハイベルキューブ)の場合、解は解析的に利用可能であり、より一般的な場合(例えば、simplex, 1-ノルム球)では、比較的低い計算量で計算することができる。 0.72
The guarantees of Algorithm 1 require the following assumption on the underlying data-generating distribution and on the set Π. アルゴリズム 1 の保証は、基礎となるデータ生成分布と集合 a 上の次の仮定を必要とする。 0.77
Assumption 5.1 (Slater point). 仮定 5.1 (後点)。 0.76
Problem (3.3) admits a Slater point P◦ ∈ Π that satisfies 問題 (3.3) は、スレイター点 p/ ∈ π を満たす。 0.68
δ = miny(cid:54)∈E (cid:107)EP◦ [ψ(ξ)] − y(cid:107)2 > 0. δ = miny(cid:54) الe (cid:107)ep] [ψ(\)] − y(cid:107)2 > 0 である。 0.83
Finding a Slater point P◦ such that Assumption 5.1 holds, in general may be difficult. 仮定 5.1 が成り立つようなスレーター点 p を見つけることは一般に困難である。 0.71
A constructive approach to find such an interior point, when ψ represents a polynomial is described in [63, Remark 8]. そのような内接点を見つけるための構成的アプローチは、[63, Remark 8] で多項式を表すときである。 0.73
7 7 0.85
英語(論文から抽出)日本語訳スコア
Algorithm 1: Optimal scheme for smooth & strongly convex optimization [44] アルゴリズム1:滑らかで強い凸最適化のための最適スキーム [44] 0.84
Choose w0 = y0 ∈ Rd and η ∈ R2 w0 = y0 ∈ Rd と η ∈ R2 を選択する。 0.73
++ For k ≥ 0 do ++ k ≥ 0 に対して 0.83
Step 1: Step 2: ステップ1: ステップ2: 0.76
Set yk+1 = wk + 1 Lη yk+1 = wk + 1 Lη 0.83
Compute wk+1 = yk+1 + 計算 wk+1 = yk+1 + 0.60
√ Gη(wk) Lη−√ √ √ ○○○○○○○○○○○○○○ 0.21
Lη+ η2 η2 (yk+1 − yk) Lη+ η2 η2 (yk+1 − yk) 0.76
Given Assumption 5.1, for ε > 0 define 仮定 5.1 が与えられたとき ε > 0 の定義は 0.67
C = D(P◦(cid:107)(cid:98)PN ), (cid:18)(cid:113) 8DC2 (cid:18)(cid:113) 8DC2 C = D(P)(cid:107)(cid:98 )PN ), (cid:18)(cid:113) 8DC2 (cid:18)(cid:113) 8DC2 0.75
α = supλ∈Rd,P∈P(Ξ) α = supλ・Rd,P・P(a) 0.59
M1(ε) = 2 M2(ε) = 2 M1(ε) = 2 M2(ε) = 2 0.97
D = 1 (cid:8)λ(cid:62)(cid:82) D = 1 (cid:8)λ(cid:62)(cid:82) 0.81
η1 = ε 2 maxy∈E (cid:107)y(cid:107)2 , η1 = ε 2maxyjavae (cid:107)y(cid:107)2 , 0.82
(cid:16)(cid:80)d i=1(2D)i(cid:17)2 Ξ ψ(ξ)dP(ξ) : (cid:107)λ(cid:107)2 = 1(cid:9) , Lη = 1/η1 + η2 + (cid:1)(cid:19) (cid:1)(cid:0)C + ε (cid:16)(cid:80)d i=1(2D)i(cid:17)2 > λ(cid:107)λ(cid:107)2 = 1(cid:9) , Lη = 1/η1 + η2 + (cid:19) (cid:0)C + ε 0.93
(cid:16) 10(ε+2C) (cid:17) (cid:18) (cid:113) 4(cid:0)4D (cid:16) 10(ε+2C) (cid:17) (cid:18) (cid:113) 4(cid:0)4D 0.72
(cid:19) (cid:19) (cid:19)(cid:19) 0.73
η2 = εδ2 2C2 , η2 = εδ2 2C2 , 0.64
4D , log log ε + α2 + εδ2 2C2 4D。 ログ ログ ε + α2 + εδ2 2C2 0.70
εδ(2−√ 3) C εδ(2−√ 3) C 0.79
2 , . ε ε2δ2 + 2α2C2 2 , . ε ε2δ2 + 2α2C2 0.77
εδ2 + 1 ε2δ2 + 2α2C2 εδ2 + 1 ε2δ2 + 2α2C2 0.61
εδ2 + 1 , (5.2) εδ2 + 1 , (5.2) 0.81
Due to the compactness of Ξ, when ψ is a continuous function the parameter α is finite. s のコンパクト性のため、ψ が連続函数であるとき、パラメータ α は有限である。 0.83
Indeed let K ∈ R be such that (ψ(ξ))i ≤ K for all ξ ∈ Ξ and i = 1, . 実際、k ∈ r は (ψ(\)))i ≤ k がすべての ~ ∈ ... と i = 1 に対して成り立つようなものとする。 0.78
. . , d, then α ≤ √ Theorem 5.1 (Almost linear convergence rate). . . , d, α ≤ > Theorem 5.1 (Almost linear convergence rate)。 0.83
Given Assumption 5.1 and the definitions (5.2), let ε > 0 and M (ε) = (cid:100)max{M1(ε), M2(ε)}(cid:101). 仮定 5.1 と定義 (5.2) が与えられたとき、 ε > 0 と M (ε) = (cid:100)max{M1(ε), M2(ε)} (cid:101) とする。 0.77
Then, k = M (ε) iterations of Algorithm 1 provide そして、アルゴリズム1の k = M (ε) 反復は、 0.78
dK. where d(·, E) denotes the distance to the set E, i.e., d(x, E) = miny∈E (cid:107)x − y(cid:107)2. DK。 d(·, E) は集合 E への距離、すなわち d(x, E) = miny∂E (cid:107)x − y(cid:107)2 を表す。 0.68
N ). ε log 1 N)。 ε log 1 0.78
Theorem 5.1 directly implies that we need at most O( 1 定理 5.1 は、ほとんどの O( 1) が必要なことを直接示している。 0.52
ε ) iterations of Algorithm 1 to achieve an εN that is also ε-feasible with respect to Π. ε ) π に関して ε-実現可能な εn を達成するためのアルゴリズム 1 の反復。 0.79
While Assertions (5.4a) and (5.4b) are closely related to [63], Assertion (5.4c) to the best of our knowledge is new and actually a crucial property for Assertions (5.4a) と (5.4b) は[63] と密接に関連しているのに対し、Assertion (5.4c) は私たちの知識の最高のところは新しく、実際は重要な性質である。 0.66
approximation to(cid:98)Pf numerically computing R(cid:63)(θ,(cid:98)Pf Computation of DRO predictor. DRO予測器の(cid:98)Pf数値計算 R(cid:63)(θ,(cid:98)Pf計算 0.79
Equipped with Algorithm 1 to efficiently approximate(cid:98)P f N via(cid:98)µk,η, the DRO predictor R(cid:63)(θ,(cid:98)Pf N ), defined in (3.4) can be computed/approximate d by R(cid:63)(θ,(cid:98)µk,η) since the function R(cid:63) is continuous. アルゴリズム1を用いて(cid:98)Pf N via(cid:98)μk,η, DRO予測器R(cid:63)(θ,(cid:98)Pf N )を3.4で定義し、関数R(cid:63)(θ,(cid:98)μk,η)が連続であるため、R(cid:63)(θ,(cid:98)μk,η)で計算/近似することができる。 0.73
The optimization problem R(cid:63)(θ,(cid:98)µk,η) admits a dual representation which follows as a the DRO predictor (3.5) evaluated at the approximate I-projection(cid:98) µk,η given by (5.3) in Theorem 5.1 admits where γj = exp(−(cid:80)d 最適化問題 r(cid:63)(θ,(cid:98)μk,η) は、近似i-射影(cid:98)μk,η で評価されるdro予測子 (3.5) として従う双対表現を、定理 5.1 において (5.3) によって与えられる。 0.82
special case from [68, Proposition 5]. 68, Proposition 5] からの特別なケース。 0.76
Proposition 5.1 (DRO duality). 命題5.1(DRO双対性)。 0.51
If r > 0 and ¯L(θ) = supξ∈Ξ L(θ, ξ) is the worst-case loss function, then r > 0 と > L(θ) = sup ・L(θ, >) が最悪のケース損失関数であれば、 0.84
R(cid:63)(θ,(cid:98)µk,η) = min R(cid:63)(θ,(cid:98)μk,η) = min 0.95
i=1((cid:98)zk,η)iψi (ξj))((cid:80)N i=1((cid:98)zk,η)i-i(sj))((cid:80)N 0.83
i=1((cid:98)zk,η)i ψi(ξj)))−1. i=1((cid:98)zk,η)i .i(sj))−1。 0.88
j=1 exp(−(cid:80)d j=1 exp(−(cid:80)d 0.81
(α − L(θ, ξj))γj (α − l(θ, , j))γj 0.95
a dual formulation α − e−r 二重の定式化 α − e−r 0.65
N(cid:89) α≥ ¯L(θ) n(cid:89) α≥ \l(θ) である。 0.66
(5.5) j=1 8 (5.5) j=1 8 0.74
(cid:98)zk,η = yk (cid:98)zk,η = yk 0.96
and (cid:98)µk,η(B) = と (cid:98)μk,η(B) = 0.91
which satisfy ε-optimality: ε-feasibility: 満足して ε最適化 ε実現可能性 0.62
ε-optimizer: j=1 1ξj∈B exp(−(cid:80)d (cid:80)N i=1((cid:98)zk,η)iψi (ξj )) (cid:80)N j=1 exp(−(cid:80)d i=1((cid:98)zk,η)i ψi(ξj )) |D((cid:98)µk,η(cid:107)(cid:98)PN ) − D((cid:98)Pf d(cid:0)(cid:82) Ξ ψ(ξ)d(cid:98)µk,η(ξ), E(cid:1) ≤ 2εδ (cid:107)(cid:98)µk,η −(cid:98)Pf ε最適化器 j=1 (cid:80)d (cid:80)N i=1((cid:98)zk,η)i i (shj )) (cid:80)N j=1 exp(−(cid:80)d i=1((cid:98)zk,η)i (cid:98)μk,η(cid:107)(cid:98)PN ) − D(cid:98)Pf d(cid:0)(cid:82)(cid :82)(cid:98)d(cid:98 )μk,η(sh), E(cid:1) ≤ 2δ (cid:107)(cid:98)-PN ) 0.67
TV ≤ 2(1 + 2 TV ≤ 2(1 + 2 0.85
N(cid:107)2 N(cid:107)2 0.88
C , √ 3)ε, C , s 3)ε, 0.82
N(cid:107)(cid:98)PN )| ≤ 2(1 + 2 N(cid:107)(cid:98)PN )| ≤ 2(1 + 2 0.95
∀B ⊂ Ξ measurable, (5.3) 測定可能。 (5.3) 0.54
√ 3)ε , (5.4a) √ 3)ε , (5.4a) 0.79
(5.4b) (5.4c) (5.4b) (5.4c) 0.67
英語(論文から抽出)日本語訳スコア
one-dimensional convex problem and as such can be computed via bisection or other line search methods. 一次元凸問題など、分岐やその他の線探索手法によって計算できる問題。 0.66
For a fixed θ ∈ Θ, Proposition 5.1 shows that the data-driven predictor R(cid:63)(θ,(cid:98)µk,η) is equivalent to a Since the measure (cid:98)µk,η is finitely supported, we can express the cost function R(cid:63)(θ,(cid:98)µk,η) as a second-order conic representable, the optimization problem minθ∈Θ R(cid:63)(θ,(cid:98)µk,η) can be expressed as a tractable convex 固定 θ ∈ θ に対して、命題 5.1 はデータ駆動予測子 r(cid:63)(θ,(cid:98)μk,η) が有限に支持されているため a と同値であることを示し、コスト関数 r(cid:63)(θ,(cid:98)μk,η) を二階円錐表現可能として表現できるので、最適化問題 minθθθθ r(cid:63)(θ,(cid:98)μk,η) は可搬凸として表現できる。 0.81
cone program involving O(N ) constraints and auxiliary variables, see [42, Section 6.2.3.5]. o(n ) 制約と補助変数を含む錐プログラムは [42, section 6.2.3.5] を参照。 0.72
Therefore, in the case where L(θ, ξ) is a convex and conic representable function of θ for fixed ξ and Θ is convex and したがって、L(θ, >) が θ の凸かつ円錐表現可能関数であるような場合、固定 > と > に対して θ は凸である。 0.68
optimization problem. 6 Experimental results 最適化問題。 6 実験結果 0.76
We focus on two of our running examples and show how the proposed MDI-DRO method performs empirically.1 We first consider two experiments on training a classifier on systematically biased data in the setting introduced in Example 3.1. 2つの実例に注目し,提案手法が経験的にどのように機能するかを示す。1 例3.1で紹介した,系統的偏りのあるデータに対して分類器を訓練する2つの実験について検討する。 0.62
Synthetic dataset — covariate shift adaptation. 合成データセット – 共変量シフト適応。 0.77
We consider a synthetic dataset involving a covariate shift, where the details are provided in Appendix 7.4. 我々はコ変量シフトを含む合成データセットを考える。詳細は appendix 7.4 で提供されている。 0.64
In the numerical experiments, we observe that the proposed MDI-DRO method significantly outperforms ERM both in terms of expected out-of-sample risk as well as in terms of the corresponding smaller variance, see Figures 1a-1b. 数値実験では,提案手法は推定外乱リスクとそれに対応する小さな分散の両面において,EMMを著しく上回っていることが観察された(図1a-1b)。 0.72
We then compare MDI-DRO to the IWERM method, which accounts for the underlying distribution shift via the importance weights pte(·)/ptr(·) that we assume to know. 次に、MDI-DRO と IWERM 法を比較し、これは我々が知るであろう重み pte(·)/ptr(·) による基礎的な分布シフトを考慮に入れている。 0.75
In contrast, MDI-DRO does not require any knowledge from the test distribution other than the function ψ and the set E. Nevertheless, MDI-DRO shows similar out-of-sample performance than IWERM despite the lack of information, and even achieves lower variance than IWERM, see Figures 1c-1d. 一方、MDI-DRO は情報不足にもかかわらず IWERM と同様のサンプル外性能を示し、IWERM よりも低い分散を達成している。
訳抜け防止モード: 対照的に、MDI - DRO は関数 ? 以外のテスト分布からの知識を必要としない。 それにもかかわらず、MDI - DROは情報不足にもかかわらず、IWERMよりも----のサンプルパフォーマンスを示している。 IWERM よりも低い分散を実現しているのが図 1c-1d である。
0.56
Figure 1e assesses the reliability of the upper confidence bound J (cid:63) N and the out-of-sample risk R(θ(cid:63) N , Pte) with respect to the regularization parameter r. In the appendix (see Figure 4) we provide additional figures showing the known tradeoff stating that a small regularization parameter r leads to small out-of-sample risk, while the reliability of the upper confidence bound J (cid:63) 図1eは、正規化パラメータrに関する上位信頼度境界j(cid:63)nと外部リスクr(θ(cid:63) n , pte)の信頼性を評価します。
訳抜け防止モード: 図1eは、上限値 J ( cid:63 ) N の信頼性を評価する サンプルリスクR(θ(cid:63 ) N, 正則化パラメータ r について。 図4参照。 ) 小さい正規化パラメータrがサンプルリスクの小さな--アウトにつながるという既知のトレードオフを示す追加の数値を提供する。 一方、上位信頼度境界J(cid:63)の信頼性
0.83
N grows with r. N は r で成長する。 0.76
r = 10−2 r = 10−4 r = 10−2 r = 10−4 0.78
r = 10−2 r = 10−4 r = 10−2 r = 10−4 0.78
r = 10−4 ) e t P r = 10−4 ) e t P 0.82
, (cid:63)N θ ( R , (cid:63)N θ (R) 0.84
0.8 0.6 0.4 0.8 0.6 0.4 0.59
0.2 ) e t P 0.2 ) e t P 0.72
, (cid:63)N θ ( R , (cid:63)N θ (R) 0.84
0.8 0.6 0.4 0.8 0.6 0.4 0.59
0.2 ) e t P 0.2 ) e t P 0.72
, (cid:63)N θ ( R , (cid:63)N θ (R) 0.84
0.8 0.6 0.4 0.8 0.6 0.4 0.59
0.2 102 N 103 0.2 102 N 103 0.78
102 N 103 ) e t P 102 N 103 ) e t P 0.85
, (cid:63)N θ ( R , (cid:63)N θ (R) 0.84
0.8 0.6 0.4 0.8 0.6 0.4 0.59
0.2 102 N 103 0.2 102 N 103 0.78
1 ) e t P , 1 ) e t P , 0.85
0.8 N (cid:98)β ( R 0.8 N (cid:98)β (R) 0.71
0.6 102 N 103 0.6 102 N 103 0.78
102 N (a) Out-of-sample risk R(θ(cid:63) 102 N (a)外来リスクR(θ(cid:63) 0.85
N , Pte) (b) Out-of-sample risk R(θ(cid:63) N, Pte) (b)外来リスクR(θ(cid:63) 0.85
(c) Out-of-sample risk R(θ(cid:63) (c)外来リスクR(θ(cid:63) 0.86
N , Pte) (d) Out-of-sample risk R(θ(cid:63) N, Pte) (d)外来リスクR(θ(cid:63) 0.85
N , Pte) (e) Reliability PN N, Pte) (e)信頼性PN 0.88
tr (R(θ(cid:63) tr(R(θ(cid:63)) 0.87
103 N , Pte) ≤ J (cid:63) N ) 103 N , Pte) ≤ J (cid:63) N ) 0.92
MDI-DRO N , Pte) Naive ERM MDI-DRO N , Pte) ERM 0.62
IWERM [59] minθ∈Θ R(θ, Pte) IWERM[59] minθθθ r(θ, pte) 0.85
Figure 1: Synthetic dataset example for m = 6, ε = 0.01. 図1: 合成データセット m = 6, ε = 0.01 の例。 0.91
The colored tubes represent the 100% confidence intervals of 1000 independent experiments and the lines the corresponding means. 色付きチューブは1000個の独立した実験の100%の信頼区間と対応する手段の線を表す。 0.83
Real-world data — classification under sample bias. 実世界のデータ — サンプルバイアスによる分類。 0.75
We consider the heart disease classification task (cf. 心臓病分類タスク(heart disease classification task:cf)について検討する。 0.50
Example 3.1) based on a real-world dataset2 consisting of i.i.d. 例 3.1) i.i.d.からなる実世界のデータセットに基づく。 0.57
samples from some unknown distribution Pte. 未知の分布Pteからのサンプル。 0.82
To simulate the data shift, we consider training based on a biased subset (training data) of this data データシフトをシミュレートするために、このデータのバイアス付きサブセット(トレーニングデータ)に基づいたトレーニングを検討する。 0.77
{((cid:98)x1,(cid:98) y1), . {((cid:98)x1,(cid:98) y1), 0.92
. . , ((cid:98)xN ,(cid:98)yN )}, N < Nte, where male patients older than 60 years are substantially over-represented. . . ; ((cid:98)xn , (cid:98)yn )}, n < nte では60歳以上の男性患者が実質的に過剰発現している。
訳抜け防止モード: . . ,( ( cid:98)xN, ( cid:98)yN ) }, N < Nte, 60歳以上の男性患者がほぼオーバーしている場合。
0.85
(cid:80)Nte i=1((cid:98)xi,(cid:98 )yi) ∈ Rm. (cid:80)Nte i=1((cid:98)xi,(cid:98 )yi) ∈ Rm。 0.86
To use our proposed modelling framework via the 提案したモデリングフレームワークを使うには 0.80
That is, we assume that the training data are distributed according to Ptr, which is different from the test distribution. すなわち、トレーニングデータは、テスト分布とは異なるPtrに従って分散されていると仮定する。 0.73
While the test distribution Pte is unknown, we assume that we have access to the empirical mean of the entire dataset m = 1 set Π in (3.2), we define E = [m − ε1, m + ε1] for some ε > 0 and the function ψ(x, y) = (x, y). テスト分布 Pte は未知であるが、データセット m = 1 の集合全体の経験平均に (3.2) でアクセスできると仮定し、ある ε > 0 に対して E = [m − ε1, m + ε1] と函数 ε(x, y) = (x, y) と定義する。 0.80
We Nte compare the proposed MDI-DRO method for classification with a “naive” logistic regression not accounting We Nte が提案した MDI-DRO 法による分類法と "ナイーブ" ロジスティック回帰法の比較 0.67
1All simulations were implemented in MATLAB and run on a 4GHz CPU with 16Gb RAM. 1allシミュレーションはmatlabで実装され、16gb ramの4ghz cpuで動作する。 0.65
The Matlab code for reproducing matlab code (複数形 matlab code) 0.64
the plots is available from https://github.com/p mdidro/PMDI_DRO. プロットはhttps://github.com/p mdidro/PMDI_DROから入手できる。 0.43
2https://www.kaggle. com/ronitf/heart-dis ease-uci 2https://www.kaggle. com/ronitf/heart-dis ease-uci 0.25
9 9 0.85
英語(論文から抽出)日本語訳スコア
for the sample bias. サンプルバイアスのためです 0.64
In addition, we use as benchmark a logistic regression model on the entire dataset. さらに、データセット全体のロジスティック回帰モデルをベンチマークとして使用しています。 0.69
Figure 2a displays the out-of-sample cost, Figure 2b shows the upper confidence certificate J (cid:63) N and Figure 2c compares the misclassification rates of the different methods. 図2aはサンプルコストを表示し、図2bは上位信頼証明j(cid:63)nを示し、図2cは異なる方法の誤分類率を比較します。 0.76
Perhaps surprisingly, for a careful selection of the radius r the proposed method shows comparable classification performance to an in-sample logistic regression method based on the full knowledge of the entire dataset. おそらく、半径rを慎重に選択するために、提案手法はデータセット全体の全知識に基づいて、サンプル内ロジスティック回帰法に匹敵する分類性能を示す。 0.73
6 4 2 0 ·10−2 6 4 2 0 ·10−2 0.77
1 0.5 10−5 1 0.5 10−5 0.68
10−3 r 10−1 10−3r 10−1 0.61
101 0 10−5 101 0 10−5 0.76
10−3 r 10−1 10−3r 10−1 0.61
101 (a) Out-of-sample cost R(θ(cid:63) 101 (a)外資費R(θ(cid:63) 0.82
N , Pte) (b) Upper confidence certificate J (cid:63) N N, Pte) (b)高信頼証明書J(id:63)N 0.83
0.5 0.4 0.3 0.5 0.4 0.3 0.59
0.2 10−5 10−3 r 0.2 10−5 10−3r 0.61
10−1 101 (c) Misclassification rate 10−1 101 (c)誤分類率 0.77
MDI-DRO Naive logistic regression Figure 2: Heart disease classification example for m = 6, N = 20, Nte = 303, ε = 10−3. MDI-DRO naive logistic regression figure 2: heart disease classification example for m = 6, n = 20, nte = 303, ε = 10−3。 0.72
Full information logistic regression 完全情報ロジスティック回帰 0.67
OPE for MDPs — inventory control example. OPE for MDP - 在庫管理の例。 0.70
We consider the OPE setting introduced in Examples 3.3 and 4.1. 3.3 と 4.1 で導入された ope の設定を考える。 0.59
A common estimator for Vπe is the inverse propensity estimator [50] vπe の一般的な推定器は逆プロペンサシティ推定器 [50] である 0.65
(cid:98)J IP S (cid:98)j ip s 0.79
N = 1 N (cid:80)N t=1 c((cid:98)st,(cid:98 )at) µe((cid:98)st,(cid:98 )at) µb((cid:98)st,(cid:98 )at) , N = 1 N (cid:80)N t=1 c((cid:98)st,(cid:98 )at) μe((cid:98)st,(cid:98 )at) μb((cid:98)st,(cid:98 )at) , 0.86
(cid:16) P (cid:16) P 0.82
Vπe ≤ (cid:98)J IP S Vπe ≤ (cid:98)J IP S 0.81
N + ε (cid:17) ≥ 1 − e N + ε (cid:17) ≥ 1 − e 0.90
−2N ε2 b2 , −2n ε2 b2 , 0.73
(6.1) the unboundedness of the variance of (cid:98)J IP S to the evaluation policy πe and i.i.d. (6.1) 評価方針 πe と i.i.d に対する (cid:98)j ip s の分散の無界性 0.76
state action pairs {(cid:98)st,(cid:98)a t}N observed empirical costs {(cid:98)ct}N state action pairs {(cid:98)st,(cid:98)a t}N observed empirical cost {(cid:98)ct}N 0.98
where the concentration bound is an application of Hoeffding’s inequality and holds for any ε > 0 and N ∈ N where b = maxs∈S,a∈A c(s, a)µe(s, a)/µb(s, a) is typically large and as such the finite sample bounds of J (cid:63) N provided by (4.5) are often more informative than (6.1). 濃度境界がホッフィングの不等式の適用であり、任意の ε > 0 と n ∈ n に対して成り立つ場合、b = maxs ajaxs,ahtmla c(s, a)μe(s, a)/μb(s, a) は通常大きく、(4.5) によって提供される j (cid:63) n の有限サンプル境界は (6.1) よりも有益であることが多い。 0.82
There are various approaches to address [12, 14, 57] and the simplest option [65] is to cap the importance weights, which however then introduces a bias. 12, 14, 57] に対処するための様々なアプローチがあり、[65] の最も単純な選択肢は重み付けをカプセル化することだが、バイアスが生じる。 0.73
We evaluate the performance of our proposed off-policy evaluation method on a classical inventory control problem (see Appendix 7.4 for a detailed description). 我々は,従来の在庫管理問題に対するオフ・ポリシー評価手法の性能評価を行った(詳細は appendix 7.4 を参照)。 0.82
We choose an evaluation policy πe and a behaviour policy πb at random. 評価ポリシー πe と行動ポリシー πb をランダムに選択する。 0.69
The decision maker then has access t=1 samples according to µb as well as the t=1. 次に、決定者は、μb と t=1 に応じて t=1 のサンプルにアクセスする。 0.70
Figure 3 shows the results. 図3は結果を示しています。 0.67
The proposed MDI-DRO method is compared against the inverse propensity approach and the ground truth in terms of off-policy evaluation performance, see Figures 3a-3b. 提案するmdi-dro法は,オフポリシー評価性能の観点から,逆プロペンシティアプローチや根拠真理と比較する。 0.57
For a small radius, MDI-DRO outperforms the IPS in terms of mean as well as variance. 小さな半径では、MDI-DRO は平均と分散の点でIPS を上回っている。 0.72
Figures 3c and 3d displays the disappointment probabilities P(Vπe > J (cid:63) N ), and confirms our theoretical result from Theorem 4.1 stating that for a larger radius r the disappointment probability decays faster. 図 3c と 3d は、失望確率 P(Vπe > J (cid:63) N ) を示し、より大きい半径 r に対して、失望確率はより早く崩壊するという定理 4.1 の理論的結果を確認する。 0.72
Figure 3e visualizes the statistical efficiency described in Theorem 4.2. 図3eは、Theorem 4.2で記述された統計効率を視覚化する。 0.54
N ) and P(Vπe > (cid:98)J IP S N ) と P(Vπe > (cid:98)J IP S 0.91
N Acknowledgements. This research was supported by the Swiss National Science Foundation under the NCCR Automation, grant agreement 51NF40 180545. N 承認。 この研究はスイス国立科学財団(NCCR Automation)が支援し、51NF40 180545を認可した。 0.71
7 Appendix 7 Appendix 0.85
We state proofs and auxiliary results of the particular sections. 我々は、特定のセクションの証明と補助結果を述べる。 0.65
7.1 Proofs of Section 3 7.1 第3節の証明 0.67
Proof of Proposition 3.1. Let Pξ|(cid:98)PN∈Π denote the conditional probability of ξ given (cid:98)PN ∈ Π, then [17, 命題3.1の証明 P |(cid:98)PN~ を (cid:98)PN ∈ > の条件付き確率とすると、[17, 0.75
Theorem 4] ensures that Theorem 4] 0.43
N→∞ D(Pξ|(cid:98)PN∈Π(cid:107)Pf ) = 0, N→∞ D(P)|(cid:98)PN・(cid:107)Pf ) = 0, 0.73
lim 10 リム 10 0.64
英語(論文から抽出)日本語訳スコア
r = 10−4 r = 10−2 r = 10−4 r = 10−2 0.78
r = 10−8 r = 10−4 r = 10−8 r = 10−4 0.78
0.22 0.2 0.18 0.22 0.2 0.18 0.59
0.16 0.22 0.2 0.16 0.22 0.2 0.59
0.18 0.16 1 0.18 0.16 1 0.68
0.5 0 1 0.5 0.5 0 1 0.5 0.72
0 0.21 0.2 0 0.21 0.2 0.68
0.19 0.18 N (cid:98)J ∞ → N m 0.19 0.18 N (cid:98)J ∞ → N m 0.72
i l 100 200 300 400 私は 100 200 300 400 0.76
100 200 300 400 100 200 300 400 0.85
0 100 200 300 400 0 100 200 300 400 0.85
0 100 200 300 400 0 100 200 300 400 0.85
N N (a) Off-policy performance N N (a)オフ・ポリシー・パフォーマンス 0.78
(b) Off-policy performance (b)オフ・ポリティクス 0.68
DRO J (cid:63) N DRO J (cid:63) N 0.92
(c) Disappointment probabilities N IPS (cid:98)J IP S (c)落胆確率 N IPS (cid:98)J IP S 0.83
N (d) Disappointment probabilities N N (d)落胆確率 N 0.80
ground truth Vπe ground truth Vπe 0.78
0.17 0.01 limN→∞ 1 0.17 0.01 limN→∞ 1 0.59
(e) Pareto curve for (cid:98)JN = J (cid:63) radius r and (cid:98)JN = (cid:98)J IP S (e) (cid:98)JN = J (cid:63) 半径 r と (cid:98)JN = (cid:98)J IP S に対するパレート曲線 0.82
N log P(Vπe > (cid:98)JN ) N log P(Vπe > (cid:98)JN ) 0.88
0.03 0.02 N with varying N + ε for varying ε 0.03 0.02 異なる ε に対して異なる N + ε を持つ N 0.68
Figure 3: The colored tubes are 90% confidence intervals. 図3:色のついたチューブは90%の信頼区間です。 0.72
The numerical parameters used were λ = 0.2, v = 1, p = 0.6, v = 0.3, γ = 5,S = {1, 2, . 数値パラメータはλ = 0.2, v = 1, p = 0.6, v = 0.3, γ = 5,S = {1, 2, である。 0.92
. . , 6},A = {1, 2, . . . , 6},A = {1, 2, . 0.83
. . , 4}. boundedness of L(θ,·) implies (cid:82) i.e., the conditional distribution Pξ|(cid:98)PN∈Π converges in information to the limiting distribution Pf . . . , 4}. L(θ,·) の有界性は (cid:82) を意味する。つまり、条件分布 P |(cid:98)PN~ は極限分布 Pf に収束する。 0.83
The Ξ etL(θ,ξ)dPf (ξ) < ∞ for |t| small enough, which ensures [16, Lemma 3.1] 16, Lemma 3.1] を確実にする |t| が十分小さいときの t etL(θ, )dPf ( ) < ∞ 0.77
N→∞ EPtr [L(θ, ξ)|(cid:98)PN ∈ Π] = lim N→∞ EPtr [L(θ, >)|(cid:98)PN ∈ >] = lim 0.94
lim N→∞ EPξ|(cid:98)PN ∈Π リム N→∞ EP |(cid:98)PN ∈ ... 0.47
[L(θ, ξ)] = EP(cid:63) [L(θ, ξ)]. [l(θ, s)] = ep(cid:63) [l(θ, s)] である。 0.78
that Proof of Proposition 3.2. あれ 命題3.2の証明 0.68
We start by noting that Proposition 3.2 can be seen as a generalization to [15, Exercise 12.6]. 命題3.2は[15, exercise 12.6]の一般化と見なすことから始める。 0.67
To simplify notation, we denote α = D(Q(cid:107)P), then 表記を単純化するために、α = D(Q(cid:107)P) と表す。 0.66
min ¯Q∈Π min (複数形 mins) 0.28
D(¯Q(cid:107)P) = min ¯Q∈P(Ξ) d( )q(cid:107)p) = min である。 0.67
max λ∈R max (複数形 maxs) 0.29
D(¯Q(cid:107)P) − λ D(=Q(cid:107)P) − λ 0.86
(cid:90) min ¯Q∈P(Ξ) − log (cid:90) min (複数形 mins) 0.58
D(¯Q(cid:107)P) − λ D(=Q(cid:107)P) − λ 0.86
(cid:18) dQ (cid:18)dq 0.79
(cid:19)λ Ξ (cid:19)λ Ξ 0.85
dP + λα Ξ dP dP + λα Ξ dP 0.88
= max λ∈R =max λhtmlr 0.69
= max λ∈R =max λhtmlr 0.69
= α, (cid:18)(cid:90) (cid:90) = α, (cid:18)(cid:90) 0.85
(cid:19) (cid:18) dQ (cid:18) dQ (cid:19) (cid:19) (cid:18) dQ (cid:18) dQ (cid:19) 0.78
dP dP log Ξ dP dP ログ Ξ 0.82
log d¯Q − α ログ d = Q − α 0.68
d¯Q + λα d = Q + λα 0.52
(cid:19) (7.1a) (cid:19) (7.1a) 0.73
(7.1b) (7.1c) (7.1b) (7.1c) 0.67
(7.1d) where (7.1a) just applies the definition of the set Π. (7.1d) ここで (7.1a) は集合 π の定義を単に適用する。 0.65
Equality (7.1b) follows from the convexity of the relative entropy and the probability simplex. 等式(7.1b)は相対エントロピーと確率単純性の凸性から従う。 0.78
Finally (7.1c) uses the fact that the minimizer in (7.1b) for any λ ∈ R is given by 最後に (7.1c) は任意の λ ∈ R に対して (7.1b) の最小値が与えられるという事実を用いる。 0.71
(cid:82) (cid:82) (cid:82)(cid:82) 0.73
(cid:82) (cid:82) (cid:82)(cid:82) 0.73
(cid:16) dQ (cid:16) dQ (cid:16) dQ (cid:16) dQ 0.81
dP (cid:17)λ (cid:17)λ dP (cid:17)λ (cid:17)λ 0.83
Ξ dP ¯Q(cid:63) Ξ dP q(cid:63) 0.80
λ(B) = B eλ log( dQ Ξ eλ log( dQ λ(B) = B eλ log(dQ ) eλ log(dQ) 0.87
dP )dP dP )dP dP ) dP dP ) dP 0.81
B = dP dP ∀B ∈ B(Ξ), B = dP dP b ∈ b() である。 0.79
which is a standard result and can be found for example in [63, Lemma 2]. これは標準的な結果であり、例えば[63, Lemma 2]で見ることができる。 0.80
The maximizer in (7.1c) can then be shown to be λ(cid:63) = 1 and hence, the optimizing distribution is ¯Q(cid:63) λ(cid:63) = Q, which shows that indeed Q = f (P). すると (7.1c) の最大値が λ(cid:63) = 1 であることが示され、したがって最適化分布は λQ(cid:63) λ(cid:63) = Q となる。 0.81
7.2 Proofs and auxiliary results of Section 4 7.2 第4節の証明及び補助結果 0.78
This section provides a detailed discussion about the choice of ambiguity sets as well as proofs of the results from Section 4. 本節では、曖昧性集合の選択に関する詳細な議論と、第4節の結果の証明を提供する。 0.70
11 11 0.85
英語(論文から抽出)日本語訳スコア
7.2.1 Discussion on the choice of ambiguity sets 7.2.1 曖昧性集合の選択に関する議論 0.69
A first question is concerned with the choide of ambiguity set Br. 第一の疑問は、あいまい性集合 Br の直交に関するものである。 0.54
In DRO, the shape of the ambiguity set is often considered as a design choice and there exists a variety of commonly used shapes, e g , moment ambituity sets [8, 19, 25, 70], φ-divergences [5, 40], Wasserstein ambiguity sets [33, 39], or maximum mean discrepancy ambiguity sets [32, 56]. dro では、曖昧性集合の形状はしばしば設計選択と見なされ、例えば、モーメントアンビティ集合 [8,19,25,70]、 φ-divergences [5,40]、ワッサーシュタイン曖昧性集合 [33, 39]、あるいは最大平均曖昧性集合 [32, 56] など、一般的に使用される様々な形状が存在する。 0.72
The ambiguity set should be such that the desired properties (1), (2) and (3) hold. 曖昧性集合は、所望の性質 (1), (2), (3) が成立するようにすべきである。 0.75
In our setting, and the distribution shift modelled via an I-projection (Definition 3.1), there are two principles for choosing an ambiguity set that seem natural: i-射影によってモデル化された分布シフト(定義3.1)では、自然に見える曖昧性集合を選択するための2つの原理が存在する。 0.59
(a) An ambiguity set characterizing all distributions, that have a relative entropy with respect to the (a)すべての分布を特徴づける曖昧性集合であって、その分布に関する相対エントロピーを有するもの 0.76
empirical reference distribution close to that of the corresponding I-projection; 対応するi-射影のそれに近い経験的参照分布 0.69
(b) An ambiguity set characterizing all distributions that are “close”3 to a given I-projection. b)所定のI射影に対して「閉」3であるすべての分布を特徴付ける曖昧性集合。 0.76
Then, following the principle ((a)), we introduce an ambiguity set 次に(a)原理に従い、曖昧性集合を導入する 0.58
r ((cid:98)Pf r ((cid:98)Pf 0.92
B(a) N ) = B(a) N ) = 0.85
(cid:110) P ∈ Π : D(P(cid:107)(cid:98) PN ) ≤ D((cid:98)Pf (cid:110) P ∈ > : D(P(cid:107)(cid:98) PN ) ≤ D((cid:98)Pf 0.87
N(cid:107)(cid:98)PN ) + r N(cid:107)(cid:98)PN ) + r 0.88
(cid:111) . (cid:111) . 0.82
(7.2) Following the principle ((b)) we have to introduce a notion of being “close”. (7.2) 原則に従って((b))、"クローズ(close)"という概念を導入する必要があります。 0.75
One possible way is via the relative entropy by defining 一つの可能な方法は 相対エントロピーを 定義することで 0.67
B(b1) r (P(cid:48)) = {P ∈ Π : D(P(cid:107)P(cid:48 )) ≤ r}, P(cid:48) ∈ P(Ξ), B(b1) r (P(cid:48)) = {P ∈ > : D(P(cid:107)P(cid:48 )) ≤ r}, P(cid:48) ∈ P( ) 0.92
(7.3) which is closely related to a standard ambiguity set in distributionally robust optimization called the reverse KL-ambiguity set [5, 13, 36, 68]. (7.3) これは、分布的ロバストな最適化における標準曖昧性集合 [5, 13, 36, 68] と密接に関連している。 0.74
When comparing the ambiguity sets (7.2) and (7.3) one can show that the ambiguity set (7.2) is a subset of (7.3). 曖昧性集合 (7.2) と (7.3) を比較するとき、曖昧性集合 (7.2) が (7.3) の部分集合であることを示すことができる。 0.69
Lemma 7.1. For any r ≥ 0 and N ∈ N, B(a) 背番号7.1。 任意の r ≥ 0 および N ∈ N に対して、B(a) 0.67
r ((cid:98)Pf r ((cid:98)Pf 0.92
((cid:98)Pf ((cid:98)Pf 0.88
N ) ⊂ B(b1) r N ) B(b1) r 0.84
Proof of Lemma 7.1. Fix an arbitrary r > 0, N ∈ N and consider P ∈ B(a) for the relative entropy [15, Theorem 11.6.1], [16, Theorem 2.2] states that 補題7.1の証明。 任意の r > 0, N ∈ N を固定し、相対エントロピー [15, Theorem 11.6.1], [16, Theorem 2.2] に対して P ∈ B(a) を考える。 0.75
N ). The Pythagorean theorem N)。 ピタゴラスの定理は 0.64
Moreover, since P ∈ B(a) さらに、P ∈ B(a) であるから 0.85
N ), according to (7.2), n) と (7.2) である。 0.70
min Q∈Π r ((cid:98)Pf ミン qππ r ((cid:98)Pf 0.61
D(Q(cid:107)(cid:98) PN ) + D(P(cid:107)(cid:98) Pf D(P(cid:107)(cid:98) PN ) ≤ min D(Q(cid:107)(cid:98) PN ) + D(cid:107)(cid:98)Pf D(P(cid:107)(cid:98) PN ) ≤ min 0.92
Q∈Π N ). r ((cid:98)Pf N ) ≤ D(P(cid:107)(cid:98) PN ) ∀P ∈ Π. qqπ N)。 r ((cid:98)Pf N ) ≤ D(P(cid:107)(cid:98) PN ) . . 0.63
D(Q(cid:107)(cid:98) PN ) + r. D(Q(cid:107)(cid:98) PN ) + r。 0.89
By combining (7.4) and (7.5) we get D(P(cid:107)(cid:98) Pf 7.4) と (7.5) を組み合わせることで、D(P(cid:107)(cid:98) Pfを得る。 0.65
N ) ≤ r, which implies that P ∈ B(b1) N ) ≤ r であり、これは P ∈ B(b1) を意味する。 0.78
r ((cid:98)Pf r ((cid:98)Pf 0.87
N ). When using the principle ((b)) instead of considering the ambiguity set (7.3) one can also define N)。 曖昧性集合 (7.3) を考える代わりに原理 ((b)) を使用するとき、また定義できる。 0.75
B(b2) r (P(cid:48)) = {P ∈ Π : D(P(cid:48)(cid:107) P) ≤ r}, P(cid:48) ∈ P(Ξ), B(b2) r (P(cid:48)) = {P ∈ > : D(cid:48)(cid:107)P) ≤ r}, P(cid:48) ∈ P( ) 0.91
which as opposed to (7.3) is called the KL-ambiguity set, as we have flipped the arguments in the relative entropy and has been studied in [68]. これは (7.3) に対して KL-曖昧性集合と呼ばれ、相対エントロピーの議論を反転させ、[68] で研究されている。 0.78
As we show in Theorem 4.2 the ambiguity set (7.3) is statistically optimal and therefore also the one used in (3.4). Theorem 4.2 で示したように、曖昧性集合 (7.3) は統計的に最適であり、3.4 で使われるものでもある。 0.70
3The precise definition of close will be discussed below. 3 閉じの正確な定義は、以下に述べる。 0.83
12 (7.4) (7.5) 12 (7.4) (7.5) 0.81
(7.6) (7.6) 0.78
英語(論文から抽出)日本語訳スコア
7.2.2 Proofs of Section 4 7.2.2 第4節の証明 0.56
Proof of Theorem 4.1. Theorem 4.1 の証明。 0.78
To prove Theorem 4.1 we first show that the DRO predictor R(cid:63) defined in (3.5) is a continuous function. Theorem 4.1 を証明するために、最初に (3.5) で定義される DRO 予測器 R(cid:63) が連続函数であることを示す。 0.67
Therefore, we equip P(Ξ) with the standard topology of weak convergence of distributions, recalling that the weak topology is metrized by the Prokhorov metric. したがって、分布の弱収束の標準トポロジーを p(\) に装備し、弱位相はプロホロフ計量によってメトリゼーションされていることを思い出す。 0.65
Then, the desired continuity of R(cid:63) follows directly from [68, Proposition 6]. そして R(cid:63) の所望の連続性は [68, Proposition 6] から直接従う。 0.82
In a next step, we consider the case where θ ∈ Θ is fixed and show that 次のステップで θ ∈ > が固定された場合を考え、そのことを示す。 0.74
lim sup N→∞ lim sup N→∞ 0.78
1 N log P (cid:16) 1N log P~ (cid:16) 0.79
R(θ, Pf ) > R(cid:63)(θ,(cid:98)Pf R(θ, Pf ) > R(cid:63)(θ,(cid:98)Pf 0.98
N ) (cid:17) ≤ −r ∀θ ∈ Θ. N)。 (cid:17) ≤ −r θ ∈ θ。 0.78
(7.7) For any P ∈ P(Ξ), we define the disappointment set A(θ, P) = {P(cid:48) ∈ P(Ξ) : R(θ, f (P)) > R(cid:63)(θ, f (P(cid:48)))} and the weak counterpart ¯A(θ, P) = {P(cid:48) ∈ P(Ξ) : R(θ, f (P)) ≥ R(cid:63)(θ, f (P(cid:48)))}. (7.7) 任意の P ∈ P( ) に対して、失望集合 A(θ, P) = {P(cid:48) ∈ P( ) : R(θ, f (P)) > R(cid:63)(θ, f(P(cid:48)))} と弱対位 φA(θ, P) = {P(cid:48) ∈ P( ) : R(θ, f (P)) ≥ R(cid:63)(θ, f(cid:48))} を定義する。 0.84
Recall that f is continuous [61, Theorem 9.17], which follows from the strict convexity of the relative entropy in its first argument [20, Lemma 6.2.12] and also R(cid:63) is continuous as argued above. f は連続 [61, theorem 9.17] であり、これは最初の引数 [20, lemma 6.2.12] における相対エントロピーの厳密な凸性から従うものであり、r(cid:63) も上記のように連続である。 0.76
Therefore the set ¯A(θ, P) is closed and hence cl A(θ, P) ⊆ ¯A(θ, P). したがって、集合 s(θ, p) は閉であり、したがって cl a(θ, p) s(θ, p) は閉である。 0.73
Thus we have lim sup N→∞ だから私たちは lim sup N→∞ 0.74
1 N log P (cid:16) 1N log P~ (cid:16) 0.79
(cid:17) R(θ, Pf ) > R(cid:63)(θ,(cid:98)Pf (cid:16) R(θ, f (P)) > R(cid:63)(θ, f ((cid:98)PN )) (cid:17) (cid:16)(cid:98)PN ∈ A(θ, P) (cid:17) R(θ, Pf ) > R(cid:63)(θ, (cid:98)Pf (cid:16) R(θ, f (P)) > R(cid:63)(θ, f((cid:98)PN )) (cid:17) (cid:16)(cid:98)PN ∈ A(θ, P) 0.93
= lim sup N→∞ = lim sup N→∞ 0.84
log P N ) log P~ N)。 0.78
(cid:17) 1 N 1 N (cid:17) 1 N 1 N 0.82
Q∈cl A(θ,P) Q・clA(θ,P) 0.70
= lim sup N→∞ ≤ − inf ≤ − inf ≤ −r, = lim sup N→∞ ≤ − inf ≤ − inf ≤ −r, 0.97
Q∈ ¯A(θ,P) θ (複数形 θs) 0.49
log P D(Q(cid:107)P) D(Q(cid:107)P) log P D(Q(cid:107)P) D(Q(cid:107)P) 0.97
where the first inequality is implied by Sanov’s Theorem, stating that(cid:98)PN satisfies an LDP with the relative 最初の不等式がサノフの定理によって暗示されるとき、(cid:98)pn が相対性を持つ ldp を満たすことを述べる 0.57
entropy as corresponding rate function [20, Theorem 6.2.10]. 対応するレート関数としてのエントロピー [20, Theorem 6.2.10] 0.71
The last inequality uses the fact that Q ∈ ¯A(θ, P) ⇒ D(f (Q)(cid:107)f (P)) ≥ r ⇒ D(Q(cid:107)P) ≥ r, 最後の不平等は Q ∈ > A(θ, P) > D(f (Q)(cid:107)f (P)) ≥ r > D(Q(cid:107)P) ≥ r, 0.67
where the first implication has been established in [68, Proof of Theorem 10] and the second implication follows by the data-processing inequality [18, Lemma 3.11]. 第1の含意が [68, proof of theorem 10] で成立し,第2の含意がデータ処理不等式 [18, lemma 3.11] によって従う。 0.81
Hence, (7.7) holds. したがって (7.7) は成り立つ。 0.71
Extending (7.7) to the case where we optimize over θ, i.e., showing θ を最適化する場合には (7.7) を拡張します。 0.78
(cid:16) 1 N (cid:16) 1N 0.79
log P R(θ(cid:63) log P~ R(θ(cid:63) 0.86
N , Pf ) > R(cid:63)(θ(cid:63) N , Pf ) > R(cid:63)(θ(cid:63)) 0.88
N ,(cid:98)Pf N ,(cid:98)Pf 0.97
N ) (cid:17) ≤ −r, N)。 (cid:17)≤ −r, 0.83
lim sup N→∞ lim sup N→∞ 0.78
N , ,(cid:98)Pf N , , (cid:98)Pf 0.94
N = arg minθ∈Θ R(cid:63)(θ(cid:63) n = arg minθθθ r(cid:63)(θ(cid:63) 0.81
where θ(cid:63) data processing inequality similar to the proof of (7.7). θ (cid:63) データ処理の不等式は (7.7) の証明と同様である。 0.70
We omit it for brevity. 私たちはそれを簡潔に省略する。 0.50
Proof of Theorem 4.2. Theorem 4.2 の証明。 0.77
We first consider the simpler setting where an arbitrary θ ∈ Θ is fixed. まず、任意の θ ∈ θ が固定されたより単純な設定を考える。 0.71
The proof is inspired by [68, Theorem 10]. その証明は[68, theorem 10]に触発された. 0.74
Suppose for the sake of contradiction there exists a continuous admissible predictor ˜R, i.e., 矛盾のため、連続許容可能な予測子(R)が存在すると仮定する。 0.79
N ) follows along the lines of the proof of [68, Theorem 11] with using the N ) は,[68, Theorem 11] の証明の行に沿って,この証明を使用する。 0.76
(cid:16) R(θ, Pf ) > ˜R(θ,(cid:98)Pf (cid:16) R(θ, Pf ) > > R(θ,(cid:98)Pf 0.86
N ) (cid:17) ≤ −r ∀θ ∈ Θ, N)。 (出典:17) ≤ −r >θ ∈ , 0.76
lim sup N→∞ lim sup N→∞ 0.78
1 N P such that there exist θ0 ∈ Θ, P0 ∈ Π such that 1N P θ0 ∈ θ, p0 ∈ π が存在するようなもの 0.82
N→∞ (cid:98)JN = ˜R(θ0, P0) < R(cid:63)(θ0, P0) = lim N→∞ (cid:98)JN = >R(θ0, P0) < R(cid:63)(θ0, P0) = lim 0.81
lim N→∞ J (cid:63) N . リム N→∞ J (cid:63) N。 0.55
(7.8) (7.9) (7.8) (7.9) 0.78
13 13 0.85
英語(論文から抽出)日本語訳スコア
We define ε = R(cid:63)(θ0, P0)− ˜R(θ0, P0) and denote by ¯P ∈ Π the optimizer in the program defining R(cid:63)(θ0, P0), i.e., R(cid:63)(θ0, P0) = R(θ0, ¯P) and D(P0(cid:107)¯P) ≤ r. By following the same argumentation as in [68, Theorem 10], and by recalling that Π is convex, there exits P(cid:48) R(θ0, ¯P) < R(θ, P(cid:48) ε = r(cid:63)(θ0, p0)− sr(θ0, p0) と定義し、r(cid:63)(θ0, p0) = r(θ0, p0) と d(p0(cid:107)) ≤ r を、[68, theorem 10] と同じ議論に従うことにより、 π が凸であることを思い出すことにより、p(cid:48) r(θ0, p) < r(θ0, p(cid:48) と定義するプログラムにおいて、最適化器は p(cid:48) を外す。 0.87
0 ∈ Π such that 0) + ε 0 ∈ π で 0) + ε となる 0.87
and D(P0(cid:107)P(cid:4 8) D(P0(cid:107)P(cid:4 8) 0.82
0) = r0 < r. 0) = r0 < r。 0.93
(7.10) Therefore, we get (7.10) したがって、我々は 0.82
˜R(θ0, P0) = R(cid:63)(θ0, P0) − ε = R(θ0, ¯P) − ε < R(θ, P(cid:48) 0). R(θ0, P0) = R(cid:63)(θ0, P0) − ε = R(θ0, P) − ε < R(θ, P(cid:48) 0)。 0.92
(7.11) We introduce the set of disappointing realizations as (7.11) がっかりした実現のセットを紹介します 0.70
D(θ0, P(cid:48) D(θ0, P(cid:48) 0.88
0) = {P ∈ P(Ξ) : R(θ0, P(cid:48) 0) = {P ∈ P( ) : R(θ0, P(cid:48) 0.93
0) > ˜R(θ0, f (P))} 0)> >R(θ0, f(P))} 0.95
From (7.11) and by recalling that P0 ∈ Π, which implies f (P0) = P0, we know that P0 ∈ D(x0, P(cid:48) 0). 7.11) から、そして f (p0) = p0 を意味する p0 ∈ π を思い出すことにより、p0 ∈ d(x0, p(cid:48) 0) であることが分かる。
訳抜け防止モード: (7.11 ) から P0 ∈ > を思い出す。 つまり f ( P0 ) = P0 であり、P0 ∈ D(x0, P(cid:48 ) 0 ) である。
0.91
Therefore, (cid:16) そのため (cid:16) 0.77
R(θ, P(cid:48) R(θ, P(cid:48) 0.96
0) > ˜R(θ0,(cid:98)Pf (cid:16) (cid:16)(cid:98)PN ∈ D(θ0, P(cid:48) 0)> >R(θ0,(cid:98)Pf(cid:16) (cid:16)(cid:98)PN ∈ D(θ0,P(cid:48) 0.84
R(θ, P(cid:48) R(θ, P(cid:48) 0.96
0) N ) 0) > ˜R(θ0, f ((cid:98)PN )) 0) N)。 0)> >R(θ0, f((cid:98)PN ) 0.85
(cid:17) (cid:17) (cid:17)(cid:17) 0.73
(cid:17) lim inf N→∞ (cid:17) lim inf N→∞ 0.78
1 N = lim inf N→∞ 1N = lim inf N→∞ 0.81
0 log P(cid:48) 1 N 1 N inf 0 log P(cid:48) 1 N 1 N inf 0.92
log P(cid:48) log P(cid:48) log P(cid:48) log P(cid:48) 0.86
0 0 D(P(cid:48)(cid:107) P(cid:48) 0) 0 0 D(P(cid:48)(cid:107) P(cid:48)0) 0.84
P(cid:48)∈int D(θ0,P(cid:48) 0) D(P(cid:48)(cid:107) P(cid:48) 0) p(cid:48)ftpint d(θ0,p(cid:48) 0) d(p(cid:48)(cid:107) p(cid:48) 0) 0.82
= lim inf N→∞ ≥ − = − inf P(cid:48)∈D(θ0,P(cid:48) 0) ≥ −D(P0(cid:107)P(cid:4 8) 0) = −r0 > −r, = lim inf n→∞ ≥ − = − inf p(cid:48)servletd(θ0,p(cid:48) 0) ≥ −d(p0(cid:107)p(cid:4 8) 0) = −r0 > −r, 0.83
(7.12) where the first inequality uses the fact that (cid:98)PN satisfies an LDP according to Sanov’s Theorem. (7.12) そこで最初の不等式は、(cid:98)PNがSanovのTheoremによると、LDPを満足しているという事実を使っている。 0.66
The third equality uses the fact that the set D(θ0, P(cid:48) 0) is open, as f is continuous, which follows from the strict convexity of the relative entropy in its first argument [61, Theorem 9.17], and ˜R is continuous too, together with the fact that P0 ∈ D(θ0, P(cid:48) 0) = r0 has been established above. 三代目 等式は集合 d(θ0, p(cid:48) 0) が開であること、f が連続であること、すなわち f の第一引数 [61, theorem 9.17] における相対エントロピーの厳密な凸性から従うこと、そして、p0 ∈ d(θ0, p(cid:48) 0) = r0 も連続であること、および p0 ∈ d(θ0, p(cid:48) 0) = r0 が上述したという事実を用いる。
訳抜け防止モード: 三代目 等式は集合 d(θ0, p(cid:48 ) 0 ) が開であるという事実を用いる。 f は連続であるので、その最初の議論における相対エントロピーの厳密な凸性 [61,] から従う。 定理 9.17] も連続的であり p0 ∈ d(θ0, p(cid:48 ) 0 ) = r0 である。
0.59
The bound (7.12) contradicts the admissibility of ˜R, i.e., (7.8), hence such a ˜R cannot exist and R(cid:63) indeed satisfies the assertion of Theorem 4.1. 有界 (7.12) は、すなわち (7.8) の許容性とは矛盾するので、そのような R は存在せず、R(cid:63) は実際には Theorem 4.1 の主張を満たす。 0.70
To address the setting of Theorem 4.1, where we optimizer over θ ∈ Θ, we repeat the arguments from above with obvious minor modifications as in [68, Theorem 11]. Theorem 4.1 の設定に対処するために、 θ ∈ > 上で最適化するので、[68, Theorem 11] のように、上記の議論を明らかに小さな修正を加えて繰り返す。 0.73
0). Finally, the last equality D(P0(cid:107)P(cid:4 8) 0). 最後に、最後の等式 D(P0(cid:107)P(cid:4 8) 0.80
R(cid:63) rN R(cid:63) rN 0.88
N ) = R(θ,(cid:98)Q(cid:63) N ) = R(θ,(cid:98)Q(cid:63) 0.98
by the Wasserstein metric of order 2. 和数 2 のワッサーシュタイン計量による。 0.47
Recall that f is continuous, which follows from the strict convexity of f が連続であることは、厳密な凸性から従うことを思い出す。 0.71
Proof of Corollary 4.1. By recalling that Sanov’s Theorem defined on finite sets [15, Theorem 11.4.1] offers a finite sample bound, we can follow the steps in the proof of Theorem 4.1 to arrive at the desired result. 登録番号4.1。 サノフの定理が有限集合 [15, Theorem 11.4.1] 上で定義されることを思い出せば、定理 4.1 の証明のステップに従って所望の結果に到達することができる。 0.66
Proof of Theorem 4.3. Theorem 4.3 の証明。 0.78
To show (4.4a), we fix an arbitrary θ ∈ Θ. 4.4a を示すために、任意の θ ∈ θ を固定する。 0.67
In a first step, we claim that f ((cid:98)PN ) converges weakly to f (P). 最初のステップでは、f ((cid:98)PN ) は f (P) に弱収束すると主張する。 0.79
It is known [29] that (cid:107)(cid:98)PN−P(cid:107)W → 0 almost surely, where (cid:107). 29] は (cid:107)(cid:98)pn−p(cid:107)w → 0 であることが知られている。 0.88
(cid:107)W is the norm induced the relative entropy in its first argument [61, Theorem 9.17]. (cid:107)W は、その最初の引数 [61, Theorem 9.17] において相対エントロピーを誘導するノルムである。 0.67
Hence, (cid:107)f ((cid:98)PN ) − f (P)(cid:107)W → 0 almost surely, which implies the desired weak convergence. したがって、 (cid:107)f ((cid:98)pn ) − f (p)(cid:107)w → 0 はほぼ確実であり、これは所望の弱収束を意味する。
訳抜け防止モード: したがって (cid:107)f ( ( cid:98)PN ) − f ( P)(cid:107)W → 0 はほぼ確実に成り立つ。 つまり 望ましい弱収束です
0.85
Let (cid:98)Q(cid:63) (θ,(cid:98)Pf N(cid:107)(cid:98)Q( cid:63) N , we have D((cid:98)Pf N ). cid:98)Q(cid:63) (θ,(cid:98)Pf N(cid:107)(cid:98)Q( cid:63)N とすると、D((cid:98)Pf N となる。 0.82
Recall that by feasibility of (cid:98)Q(cid:63) (θ,(cid:98)Pf N ) ≤ rN for all N ∈ N. In a second step, we claim that(cid:98)Q(cid:63 ) N converges weakly to Pf . すべての N ∈ N に対して (cid:98)Q(cid:63) (θ,(cid:98)Pf N ) ≤ rN が成立することにより、第二段階において、(cid:98)Q(cid:63)N は Pf に弱収束すると主張する。 0.75
Let g : Ξ → R be a bounded continuous function, (cid:68) (cid:68) (cid:69) (cid:68) (cid:69) (cid:69) (cid:68) g,(cid:98)Q(cid:63) N +(cid:98)Pf N −(cid:98)Pf g,(cid:98)Q(cid:63) g,(cid:98)Q(cid:63) N −(cid:98)Pf g,(cid:98)Pf (cid:69) (cid:68) =(cid:10)g, Pf(cid:11). 有界連続函数 (cid:68) (cid:68) (cid:69) (cid:68) (cid:69) (cid:69) (cid:68) g,(cid:98)q(cid:63) n +(cid:98)pf n −(cid:98)pf g,(cid:98)q(cid:63) g,(cid:98)q(cid:63)n −(cid:98)pf g,(cid:98)pf g,(cid:69) =(cid:10)g, pf(cid:11) とする。 0.90
Moreover, by feasibility of (cid:98)Q(cid:63) g,(cid:98)Pf N(cid:107)TV ≤(cid:112)rN /2. さらに、(cid:98)Q(cid:63) g,(cid:98)Pf N(cid:107)TV ≤(cid:112)rN /2 が実現可能である。 0.78
Therefore, N −(cid:98)Q(cid:63) N ) ≤ rN . したがって、N −(cid:98)Q(cid:63) N ) ≤ rN である。 0.74
Invoking Pinsker’s inequality gives (cid:107)(cid:98)Pf (cid:69) ≤ (cid:107)g(cid:107)∞(cid:107)(cid:98)Pf N(cid:107)TV ≤ (cid:107)g(cid:107)∞(cid:112)rN /2, N −(cid:98)Q(cid:63) 107)(cid:98)Pf (cid:69) ≤ (cid:107)g(cid:107)∞(cid:107)(cid:98)Pf N(cid:107)TV ≤ (cid:107)g(cid:107)∞(cid:112)rN /2, N −(cid:98)Q(cid:63) 0.86
As (cid:98)Pf we have D((cid:98)Pf cid:98)Pfとして、D((cid:98)Pfがある 0.74
N converges weakly to Pf , we know that limN→∞ N は Pf に弱収束し、limN→∞ が分かる。 0.69
N be the optimizer to the program R(cid:63) rN N はプログラム R(cid:63) rN のオプティマイザである 0.79
(cid:68) N −(cid:98)Pf g,(cid:98)Q(cid:63) (cid:68)N −(cid:98)Pf g,(cid:98)Q(cid:63) 0.86
N(cid:107)(cid:98)Q( cid:63) N(cid:107)(cid:98)Q( cid:63) 0.78
N ), i.e., (7.13) n) である。 (7.13) 0.69
(cid:69) then (cid:69) じゃあ 0.71
N , N . N = N。 N . N = 0.81
N + N = N N N + N = N N 0.85
14 14 0.85
英語(論文から抽出)日本語訳スコア
and consequently limN→∞ したがってlimN→∞ 0.65
(cid:10)g, Pf(cid:11) and hence(cid:98)Q(cid:6 3) N→∞ RrN (θ,(cid:98)Pf (cid:10)g、Pf(cid:11)、従って(cid:98)Q(cid:63)N→∞ RrN (θ,(cid:98)Pf 0.81
and continuous, lim (cid:69) 連続して リム (cid:69) 0.61
(cid:68) (cid:69) = N converges weakly to Pf . (cid:68) (cid:69) = N は Pf に弱収束する。 0.75
Finally, since the loss function L(θ,·) for any fixed θ is bounded 最後に、任意の固定θに対する損失関数 L(θ,·) は有界である。 0.81
(cid:68) g,(cid:98)Q(cid:63) =(cid:10)L(θ,·), Pf(cid:11) = R(θ, Pf ) P−a.s. (cid:68) g,(cid:98)q(cid:63) =(cid:10)l(θ,·), pf(cid:11) = r(θ, pf ) p−a.s。 0.91
g,(cid:98)Q(cid:63) N −(cid:98)Pf N→∞ R(θ,(cid:98)Q(cid:63) g,(cid:98)Q(cid:63)N −(cid:98)Pf N→∞ R(θ,(cid:98)Q(cid:63) 0.86
= 0. Taking the limits in (7.13) thus results in limN→∞ = 0. したがって (7.13) の極限を取ると limn→∞ となる 0.77
L(θ,·),(cid:98)Q(cid:63) L(θ,·)(cid:98)Q(cid:63) 0.84
N ) = lim N→∞ N ) = lim N→∞ 0.88
N ) = lim (cid:68) N ) = lim (cid:68) 0.82
(cid:69) N (cid:69) N 0.82
N N which completes the first assertion. N N 最初の主張を完了させます 0.78
The proof of (4.4b) follows along the lines of the proof of [37, Theorem 3] and is therefore omitted here. 4.4b) の証明は [37, Theorem 3] の証明の行に沿って従い、ここで省略される。 0.71
7.3 Proofs and auxiliary results of Section 5 7.3 第5節の証明及び補助結果 0.79
Proof of Theorem 5.1. Theorem 5.1 の証明。 0.77
The proof of Assertions (5.4a) and (5.4b) invokes as a key tool the so-called double smoothing method [21]. アサーションの証明 (5.4a) と (5.4b) は、いわゆるdouble smoothing method [21] というキーツールとして呼び出される。 0.71
The proof is structurally similar to [63] and is provided here to keep the paper self contained. 証明は[63]と構造的に類似しており、紙を自己包含するためにここで提供される。 0.74
Assertion (5.4c) is new and exploits the maximum entropy structure and in particular the Pythagorean theorem for relative entropy [15, Theorem 1.6.1]. Assertion (5.4c) は新しく、最大エントロピー構造、特に相対エントロピー [15, Theorem 1.6.1] に対するピタゴラスの定理を利用する。 0.72
We start by proving Assertions (5.4a) and (5.4b). まず、Assertions (5.4a) と (5.4b) の証明から始める。 0.62
It is convenient to define the linear operator A : P(Ξ) → Rd 線型作用素 A : P(a) → Rd を定義するのが便利である。 0.77
Ξ ψ(ξ)dµ(ξ))i and consider the following primal and dual optimization programms そして、次の原始的および双対最適化プログラムを考える。 0.37
as (Aµ)i = ((cid:82) as (Aμ)i = ((cid:82) 0.92
J (cid:63) P = min µ∈P(Ξ) j (cid:63) p = min μبp(\) 0.82
(cid:110) D(µ(cid:107)(cid:98)PN ) + sup (cid:110) − σE(z) + min (cid:110) D(μ(cid:107)(cid:98)PN ) + sup (cid:110) − σE(z) + min 0.88
z∈Rd (cid:8)(cid:10)Aµ, z(cid:11) − σE(z)(cid:9)(cid:111) (cid:110) D(µ(cid:107)(cid:98)PN ) +(cid:10)Aµ, z(cid:11)(cid:111)(c id:111) 随筆 (cid:8)(cid:10)Aμ, z(cid:11) − σE(z)(cid:9)(cid:111) (cid:110) D(μ(cid:107)(cid:98)PN ) +(cid:10)Aμ, z(cid:11)(cid:111) (cid:111) 0.56
where σE : Rd → R defined as σE(z) = maxx∈E since E is compact [49, Corollary 13.2.2]. σE : Rd → R が σE(z) = maxx∂E と定義されるとき、E はコンパクト [49, Corollary 13.2.2] である。 0.72
The existence of a Slater point, Assumption 5.1, ensures [63, Lemma 3] that there is no duality gap, i.e, J (cid:63) スレイター点、仮定 5.1 の存在は [63, Lemma 3] に双対性ギャップがないことを保証している、すなわち J (cid:63) である。
訳抜け防止モード: Slater 点、仮定 5.1 の存在は、[63, Lemma 3 ] を保証します。 双対性ギャップがない、すなわち J ( cid:63 )
0.80
D. With regard to (7.14) we define the dual function as D. (7.14) に関して、双対函数を定義する。 0.71
µ∈P(Ξ) μ (複数形 μs) 0.40
(cid:10)x, z(cid:11) denotes the support function of E, which is continuous (cid:10)x, z(cid:11) は連続な E の支持関数を表す 0.90
(7.14b) , J (cid:63) D = sup z∈Rd (7.14b) , J (cid:63) D = sup z・Rd 0.76
P = J (cid:63) F (z) = −σE(z) + min µ∈P(Ξ) p = j (cid:63) f (z) = −σe(z) + min μservletp(\) 0.83
(cid:110) D(µ(cid:107)(cid:98)PN ) +(cid:10)Aµ, z(cid:11)(cid:111) (cid:110) D(μ(cid:107)(cid:98)PN ) +(cid:10)Aμ, z(cid:11)(cid:111) 0.80
. (7.15) While the primal problem (7.14a) is an infinite-dimensional optimization problem, the dual problem, (7.14b) can be solved via first-order methods, provided that the gradient of the dual function (7.15) can be evaluated at low cost. . (7.15) 主問題(7.14a)は無限次元最適化問題であるが、双対問題(7.14b)は一階法で解くことができ、双対関数(7.15)の勾配を低コストで評価できる。 0.80
Unfortunately, the dual function (7.15) is non-smooth. 残念ながら、双対函数(7.15)は非滑らかである。 0.65
Consequently, an optimal first-order method would require O(1/ε2) iterations, where ε denotes the desired additive accuracy [44, Section 3.2]. その結果、最適一階法ではO(1/ε2)反復が必要となり、εは所望の加算精度[44, section 3.2]を示す。 0.71
Interestingly, we are able to exploit some underlying problem structure to speed up the overall computations by introducing a so-called smoothing parameter η = (η1, η2) ∈ R2 ++. 興味深いことに、基礎となる問題構造を利用して、いわゆる平滑化パラメータ η = (η1, η2) ∈ r2 ++ を導入することで、全体的な計算を高速化することができる。 0.63
Then, in the spirit of [21, 43], we consider a smooth approximation of the dual function そして [21, 43] の精神において、双対函数の滑らかな近似を考える。 0.71
(7.14a) where x(cid:63) (7.14a) ここで x(cid:63) 0.66
z = πte(η−1 z = πte(η−1) 0.69
1 z) is the maximizer of the first term and the minimizer in the second term is given by 1 z)は第一項の最大値であり、第二項の最小値は与えられる。 0.73
(cid:110)(cid:10)x, z(cid:11) − η1 (cid:80)N (cid:80)N (cid:110)(cid:10)x, z(cid:11) − η1 (cid:80)N (cid:80)N 0.80
2 (cid:107)x(cid:107)2 2 (cid:107)x(cid:107)2 0.83
2 (cid:111) (cid:16)−(cid:80)d (cid:16)−(cid:80)d 2 (cid:111) (cid:16)−(cid:80)d (cid:16)−(cid:80)d 0.82
j=1 1ξj∈B exp j=1・j・Bexp 0.47
i=1 ziψi (ξj) i=1 ziψi である。 0.60
j=1 exp i=1 zi ψi(ξj) j=1 exp i=1 zi ψi(j) 0.76
(cid:110) D(µ(cid:107)(cid:98)PN ) +(cid:10)Aµ, z(cid:11)(cid:111) − η2 (cid:17) (cid:110) D(μ(cid:107)(cid:98)PN ) +(cid:10)Aμ, z(cid:11)(cid:111) − η2 (cid:17) 0.79
2 for all B ∈ B(Ξ) . 2 すべての B ∈ B( ) に対して。 0.84
(cid:17) + min µ∈P(Ξ) (cid:17) + min μ∂P(a) 0.75
(cid:107)z(cid:107)2 2 , (cid:107)z(cid:107)2 2 , 0.86
(7.16) It can be shown [63, Lemma 4], that the regularized dual function Fη is η2-strongly convex and differentiable, with gradient (7.16) 正規化双対函数 fη が η2-強凸かつ微分可能であり、勾配を持つ [63, lemma 4] を示すことができる。
訳抜け防止モード: (7.16) それは[63, Lemma 4 ], 正規化された双対関数 Fη は η2-strongly convex で微分可能で勾配がある
0.83
∇Fη(z) = −x(cid:63) Fη(z) = −x(cid:63) 0.79
z + Aµ(cid:63) z + Aμ(cid:63) 0.82
z − η2z = Gη(z), z − η2z = Gη(z) 0.94
(7.17) where Gη is the function defined in (5.1). (7.17) gη は (5.1) で定義される関数である。 0.75
The gradient Gη further is Lipschitz continuous with constant 2 maxx∈E (cid:107)x(cid:107)2 . さらに勾配gηは、定数2maxx(cid:107)x(cid: 107)2のリプシッツ連続である。 0.68
Therefore, the regularized dual program given as したがって 正規化双対プログラムは 0.64
Lη = 1/η1 + η2 + Lη = 1/η1 + η2 + 0.69
and D = 1 Fη(z) = − max x∈E D = 1 Fη(z) = −max x∂E 0.66
µ(cid:63) z(B) = μ(cid:63) z(B) = 0.85
i=1(2D)i(cid:17)2 (cid:16)(cid:80)d i=1(2D)i(cid:17)2(cid: 16)(cid:80)d 0.76
sup z∈Rd sup zhtmlrd 0.60
Fη(z) 15 (7.18) Fη(z) 15 (7.18) 0.87
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
英語(論文から抽出)日本語訳スコア
which implies via Pinsker’s inequality that つまりPinskerの不平等は 0.41
(cid:107)(cid:98)µk,η −(cid:98)Pf (cid:107)(cid:98)μk,η −(cid:98)Pf 0.80
N(cid:107)2 N(cid:107)2 0.88
TV ≤ 2(1 + 2 TV ≤ 2(1 + 2 0.85
√ 3)ε, (cid:18) dPλ d(cid:98)PN √ 3)ε, (cid:18) dPλ d(cid:98)PN 0.83
(cid:19) dPλ d(cid:98)PN (cid:19) dPλ d(cid:98)PN 0.78
and completes the proof. Side result in proof of Theorem 5.1. 証明を完了させます 定理 5.1 の証明の結果である。 0.65
We now justify (7.19a) and introduce the function f : [0, 1]×Ξ → R defined as 現在 (7.19a) を正当化し、定義する函数 f : [0, 1]×\ → R を導入する。 0.79
Recall that (cid:90) 思い出して (cid:90) 0.60
Ξ f (λ, ξ) = log Ξ f(λ、λ) = log 0.83
(ξ) (ξ). f (λ, ξ)d(cid:98)PN (ξ) = D(Pλ(cid:107)(cid:98)PN ) ≤ λD((cid:98)µk,η(cid:107)(cid:98)PN ) + (1 − λ)D((cid:98)Pf (ξ) (ξ). λ = D(Pλ(cid:107)(cid:98)PN ) ≤ λD((cid:98)μk,η(cid:107)(cid:98)PN ) + (1 − λ)D((cid:98)Pf 0.85
N(cid:107)(cid:98)PN ) < ∞, N(cid:107)(cid:98)PN ) < ∞, 0.96
(7.22) where the first inequality follows from the convexity of the relative entropy and the last inequality follows from (5.4a). (7.22) 最初の不等式が相対エントロピーの凸性から従うとき、最後の不等式は (5.4a) から従う。 0.69
In a first step, we show that f (λ, ξ) is integrable. 最初のステップでは、f(λ, ) が可積分であることを示す。 0.70
Therefore, define g(λ, ξ) = max{f (λ, ξ), e−1}. したがって、g(λ, ]) = max{f (λ, λ), e−1} と定義する。 0.89
Now, since −e−1 ≤ f (λ, ξ) for all λ, ξ, we have |f (λ, ξ)| ≤ g(λ, ξ). このとき、すべての λ に対して −e−1 ≤ f(λ, ) であるため、|f(λ, )| ≤ g(λ, ) が成り立つ。 0.88
It remains to show that g is integrable. g が可積分であることは明らかではない。 0.44
For that introduce the set Aλ = {ξ ∈ Ξ : f (λ, ξ) ≤ e−1} and define the constant そのため、集合 Aλ = { ∈ > : f (λ, >) ≤ e−1} を導出し、定数を定義する。 0.85
Finally, for all λ ∈ [0, 1] 最後に、すべての λ ∈ [0, 1] に対して 0.84
(cid:90) |f (λ, ξ)|d(cid:98)PN (ξ) ≤ (cid:90) |f (λ, λ)|d(cid:98)PN (>) ≤ 0.82
g(λ, ξ)d(cid:98)PN (ξ) ≤ g(λ, \)d(cid:98)pn(\) ≤ 0.73
(cid:90) Ξ (cid:90) Ξ 0.82
f (λ, ξ)d(cid:98)PN (ξ) + 2Iλ < ∞, f(λ, t)d(cid:98)PN(a) + 2Iλ < ∞, 0.93
where(cid:82) ここで(cid:82) 0.58
Ξ Ξ f (λ, ξ)d(cid:98)PN (ξ) ≤ ∞ according to (7.22). Ξ (7.22) に従って f (λ, )d(cid:98)pn (\) ≤ ∞ となる。 0.81
d(cid:98)µk,η(ξ) − d(cid:98)Pf d(cid:98)μk,η(\) − d(cid:98)pf 0.88
∇λf (λ, ξ) = λf(λ、λ) = である。 0.67
(cid:16) Ξ (cid:16) Ξ 0.82
1 d(cid:98)PN 1 d(cid:98)PN 0.87
(cid:17) Next, we find that the derivative with respect to λ given by (cid:17) 次に、λ に関する微分が与えられたことが分かる。 0.70
(cid:16) d(cid:98)µk,η(ξ) − d(cid:98)Pf (cid:16) d(cid:98)μk,η(\) − d(cid:98)pf 0.83
N (ξ) n (複数形 ns) 0.60
(cid:17) exits for all λ ∈ [0, 1] and all ξ ∈ Ξ. (cid:17) すべての λ ∈ [0, 1] とすべての λ ∈ ... の出口。 0.79
Moreover, we can also show that ∇λf (λ, ξ) is integrable too, i.e., さらに、λf(λ、λ) も可積分であること、すなわち可積分であることも示せる。 0.59
(cid:90) Aλ (cid:90) Aλ 0.78
d(cid:98)PN (ξ) < ∞. d(cid:98)pn (\) < ∞ である。 0.86
Iλ = e−1 (cid:90) Iλ = e−1 (cid:90) 0.73
(cid:90) Ξ (cid:90) Ξ 0.82
1 (ξ) dPλ + log 1 (ξ) dPλ +ログ 0.80
N (ξ) n (複数形 ns) 0.60
d(cid:98)PN d(cid:98)PN |∇λf (λ, ξ)|d(cid:98)PN (ξ) < ∞. d(cid:98)PN d(cid:98)PN | λf (λ, λ)|d(cid:98)PN (sh) < ∞。 0.81
(cid:17) (7.23) (cid:17) (7.23) 0.78
(7.24) (7.25) (7.24) (7.25) 0.78
To show (7.24), the concavity of the logarithm gives 7.24)を示すために、対数の凹凸が与える 0.74
∇λf (λ, ξ) ≥ 1 λf (λ, ) ≥ 1 である。 0.80
(cid:16) d(cid:98)PN (cid:32) (cid:16) d(cid:98)PN(cid:32) 0.80
d(cid:98)µk,η(ξ) − d(cid:98)Pf (cid:18) d(cid:98)µk,η (cid:19) d(cid:98)PN d(cid:98)μk,η(i) − d(cid:98)pf (cid:18) d(cid:98)μk,η (cid:19) d(cid:98)pn 0.83
(ξ) N (ξ) (ξ) n (複数形 ns) 0.72
+ λ log > −∞, + λログ > −∞, 0.75
+ (1 − λ) log + (1 − λ) log 0.85
(ξ) (cid:32) (ξ) (cid:32) 0.82
d(cid:98)Pf d(cid:98)PN d(cid:98)Pf d(cid:98)PN 0.86
N (cid:33)(cid:33) N (cid:33)(cid:33) 0.80
1 d(cid:98)PN 1 d(cid:98)PN 0.87
(cid:16) d(cid:98)µk,η(ξ) − d(cid:98)Pf (cid:16) d(cid:98)μk,η(\) − d(cid:98)pf 0.83
N (ξ) n (複数形 ns) 0.60
(cid:17) where the last inequality follows from the observation that (cid:17) 最後の不等式が観察結果から 0.61
d(cid:98)µk,η d(cid:98)PN d(cid:98)μk,η d(cid:98)PN 0.85
0 < (ξ) < ∞ 0 < (ξ) < ∞ 0.85
and 0 < 17 そして 0 < 17 0.81
d(cid:98)Pf d(cid:98)PN d(cid:98)Pf d(cid:98)PN 0.86
N (ξ) < ∞, N (ξ) < ∞, 0.79
∀ξ ∈ Ξ, (7.26) ∀ξ ∈ Ξ, (7.26) 0.88
英語(論文から抽出)日本語訳スコア
which follows from the fact that(cid:98)µk,η and(cid:98)Pf N have the same support as(cid:98)PN and the fact that D((cid:98)Pf and D((cid:98)µk,η(cid:107)(cid:98)PN ) < ∞, which is due to (5.4b). これは、(cid:98)μk,η と(cid:98)Pf N が(cid:98)PN と同じサポートを持ち、D((cid:98)Pf と D((cid:98)μk,η(cid:107)(cid:98)PN ) < ∞ が (5.4b) であるという事実に従う。 0.88
Moreover, (cid:12)(cid:12)(cid :12)(cid:12) 1 (cid:16) d(cid:98)µk,η(ξ) − d(cid:98)Pf d(cid:98)PN さらに (cid:12)(cid:12)(cid :12)(cid:12) 1 (cid:16) d(cid:98)μk,η(\) − d(cid:98)Pf d(cid:98)PN 0.83
(cid:12)(cid:12)(cid :12)(cid:12) < ∞, (cid:12)(cid:12)(cid :12) < ∞ である。 0.83
∇λf (λ, ξ) = λf(λ、λ) = である。 0.67
d(cid:98)PN d(cid:98)PN 0.88
N (ξ) n (複数形 ns) 0.60
dPλ (ξ) N(cid:107)(cid:98)PN ) < ∞ dPλ (ξ) N(cid:107)(cid:98)PN ) < ∞ 0.84
(7.27) where the first term is finite due to (7.26). (7.27) 第1項は (7.26) により有限である。 0.77
To show that the second term is also finite, we show that 0 < dPλ 2番目の項も有限であることを示すために、0 < dPλ を示す。 0.62
(ξ) < ∞ for all ξ ∈ Ξ and λ ∈ [0, 1]. λ ∈ [0, 1] および λ ∈ [0, 1] に対して ∞ である。 0.82
This follows from (7.26), since これは(7.26)以降である。 0.76
d(cid:98)PN d(cid:98)PN 0.88
(cid:17)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)(cid:12)1 + log d(cid:98)Pf d(cid:98)PN (cid:17)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)(cid:12)1 + log d(cid:98)pf d(cid:98)pn) 0.74
N dPλ d(cid:98)PN N dPλ d(cid:98)PN 0.84
(ξ) = λ d(cid:98)µk,η d(cid:98)PN (ξ) = λ d(cid:98)μk,η d(cid:98)PN 0.85
(ξ) + (1 − λ) (ξ) + (1 − λ) 0.85
(ξ). Therefore, the integrability of f , see (7.23), and its gradient (7.27) ensure that the integral and differentiation operators can be swapped, i.e., (7.19a) holds. (ξ). したがって、 f , see (7.23) の可積分性とその勾配 (7.27) は、積分作用素と微分作用素が交換可能であることを保証する。 0.83
7.4 Auxiliary results from Section 6 7.4 第6節の補助結果 0.74
1 m−1 (cid:80)m−1 j=1 ((cid:98)xi)j > 1 1 m−1 (cid:80)m−1j=1 ((cid:98)xi)j > 1 0.73
Construction of synthetic dataset for classification under covariate shift. 共変量シフトによる分類のための合成データセットの構築 0.71
Consider training data トレーニングデータを考える 0.81
consisting of feature vectors(cid:98)xi that are uniformly distributed on [0, 1]m−1, where m ≥ 2, and its correspond2 and(cid:98)yi = −1 otherwise, such that EPtr [(x, y)] = (0, 0) ∈ Rm. 特徴ベクトル(cid:98)xi は、[0, 1]m−1 上に一様分布し、ここで m ≥ 2 とその対応する 2 と(cid:98)yi = −1 であり、そうでなければ eptr [(x, y)] = (0, 0) ∈ rm となる。 0.83
ing labels defined as(cid:98)yi = 1 if Suppose we are given some prior knowlege about Pte in terms of the set E = [EPte [(x, y)]− ε· 1, EPte [(x, y)] + ε · 1] ⊂ Rm, where 0 /∈ E, ψ(x, y) = (x, y) and ε > 0. 集合 E = [EPte [(x, y)]− ε· 1, EPte [(x, y)] + ε · 1] > Rm で Pte に関する事前知識が与えられるとすると、 (cid:98)yi = 1 {\displaystyle (cid:98)yi = 1} となる。
訳抜け防止モード: ing ラベルが(cid:98)yi = 1 と定義されるとき、集合 e = [ epte [ ( x, y)]− ε · 1 の項で pte に関するいくつかの事前知識が与えられると仮定する。 epte [ ( x, y ) ] + ε · 1 ] ... rm, ここで 0 / tasktop e, ψ(x, y ) = (x, y ) ε > 0 である。
0.89
Suppose further that the (unknown) marginal test (cid:80)m−1 distribution Pte on the feature vectors is described by a density (cid:80)m−1 さらに、特徴ベクトル上の(未知)辺点テスト(cid:80)m−1分布pteを密度(cid:80)m−1で記述する。 0.78
A direct calculation reveals that (EPte [x])j = m−2 (cid:80)m−1 that the conditional distribution of the labels given the features is unchanged. 直接計算により、 (EPte [x])j = m−2 (cid:80)m−1 は、特徴が与えられたラベルの条件分布が変化しないことが分かる。
訳抜け防止モード: 直接計算すると、 ( EPte [ x])j = m−2 ( cid:80)m−1 特徴を与えられたラベルの条件分布は変化しない。
0.76
Therefore, we can compute j=1 xj ≥ 1 EPte [y] = Pte( 1 2 ) > 0. したがって、j=1 xj ≥ 1 EPte [y] = Pte(1 2 ) > 0 を計算することができる。 0.82
We further assume that the set E is such that EPte [ψ(x, y)] ∈ E. Inventory control model. さらに、集合 E は EPte [(x, y)] ∈ E. Inventory control model と仮定する。
訳抜け防止モード: 我々はさらにそれを仮定する。 集合 E は EPte [ >(x, y ) ] ∈ E. Inventory control model である。
0.85
Consider an inventory model in which the state variable st describes the stock level at the beginning of period t. The control or action variable at at t is the quantity ordered and immediately supplied at the beginning of period t, and the disturbance or exogenous variable ζt is the demand during that period. 状態変数 st が期間 t の初めの株価レベルを記述する在庫モデルを考える。 t における制御変数または動作変数は、期間 t の初めに注文され、即座に供給される量であり、乱れまたは外因性変数 t はその期間の需要である。 0.82
We assume the ζt to be i.i.d. i.i.d.と仮定する。 0.50
random variables following an geometric distribution on N0 with parameter λ and that the inventory has a finite capacity γ ∈ N. The system equations describing the evolution of the stock level of the inventory are given as パラメータλ を持つ n0 上の幾何分布に従い、そのインベントリが有限容量 γ ∈ n を持つ確率変数。
訳抜け防止モード: パラメータλを持つn0上の幾何分布に続く確率変数 在庫が有限容量 γ ∈ n であることは、在庫の在庫水準の進化を記述する系方程式が与えられる。
0.79
3(m−1) > 0 for all j = 1, . すべての j = 1 に対して 3(m−1) > 0 である。 0.75
. . , m − 1. . . , m − 1。 0.82
We assume 2 ) − Pte( 1 m−1 私たちは 2 ) − pte(1 m−1) 0.73
x ∈ [0, 1]m−1. x ∈ [0, 1]m−1。 0.95
j=1 xj < 1 j=1 xj < 1 0.84
pte(x) = 2 pte(x) = 2 0.85
2(m−1) + j=1 xj, 2(m−1) + j=1 xj。 0.81
(7.28) m−1 (7.28) m−1 0.69
m−1 2 (7.29) for t ∈ N0, see [27]. m−1 2 (7.29) for t ∈ N0, see [27]. 0.80
State and action spaces are S = A ⊂ N. Suppose we wish to maximize an expected revenue for operating the inventory, where the net revenue at stage t is 状態と行動空間は S = A > N である。 段階 t の純利益がある在庫を運用するための期待収益を最大化したいと仮定する。 0.75
t = 0, 1, 2, . t = 0, 1, 2, . 0.85
. . , st+1 = max{0, min{γ, st + at} − ζt}, . . , st+1 = max{0, min{γ, st + at} − t} である。 0.87
r(st, at, ζt) = v min{st + at, ζt} − pat − h(st + at), r(st, at, s) = v min{st + at, s(t) − pat − h(st + at) である。 0.90
(7.30) which is of the form revenue = sales - production cost - holding cost. (7.30) これは、売上 = 売上 - 生産コスト - 維持コストの形式です。 0.71
In (7.30), v, p and h are positive constants denoting unit sale price, unit production cost, and unit holding cost, respectively. (7.30)では、v、p、hはそれぞれ単位販売価格、単位生産コスト、および単位保持コストを示す正の定数である。 0.76
To write the cost (7.30) in the form of our control model introduced in Example 3.3, we define 例 3.3 で導入された制御モデルでコスト (7.30) を記述するには、 0.79
c(s, a) = E[−r(st, at, ζt)|st = s, at = a] = v (1−λ) c(s, a) = e[−r(st, at, ]t)|st = s, at = a] = v (1−λ) 0.95
λ ((1 − λ)(a+s) − 1) + pa + h(s + a), λ ((1 − λ)(a+s) − 1) + pa + h(s + a) 0.88
which can be directly seen to be invertible for the numerical values chosen. これは直接、選択した数値に対して可逆であると見なすことができる。 0.60
18 18 0.85
英語(論文から抽出)日本語訳スコア
Figure 4: Detailed version of Figure 1. 図4: 図1の詳細なバージョン。 0.73
Synthetic dataset example for m = 6, ε = 0.01. m = 6, ε = 0.01 の合成データセットの例。 0.81
The colored tubes represent the 100% confidence intervals of 1000 independent experiments and the lines the corresponding means. 色付きチューブは1000個の独立した実験の100%の信頼区間と対応する手段の線を表す。 0.83
19 19 0.85
英語(論文から抽出)日本語訳スコア
References [1] Andr´as Antos, Csaba Szepesv´ari, and R´emi Munos. 参考文献 [1] andr ́as antos, csaba szepesv ́ari, r ́emi munos。 0.63
Learning near-optimal policies with bellman-residual minimization based fitted policy iteration and a single sample path. ベルマン残留最小化に基づく適合ポリシー反復と単一サンプルパスによる準最適ポリシーの学習 0.78
In Learning Theory, pages 574–588. 学習理論』574-588頁。 0.79
Springer, 2006. [2] Boris Belousov and Jan Peters. 2006年春。 [2] ボリス・ベルーソフとヤン・ピータース。 0.57
Entropic regularization of markov decision processes. マルコフ決定プロセスのエントロピー正規化。 0.64
Entropy, 21(7), エントロピー21(7)。 0.56
2019. [3] Shai Ben-David, John Blitzer, Koby Crammer, and Fernando Pereira. 2019. 3] Shai Ben-David, John Blitzer, Koby Crammer, Fernando Pereira。 0.81
Analysis of representations for domain adaptation. 表現の分析 ドメイン適応。 0.58
In Advances in Neural Information Processing Systems, volume 19, 2007. In Advances in Neural Information Processing Systems, Volume 19, 2007 (英語) 0.80
[4] A. Ben-Tal, L. El Ghaoui, and A. Nemirovski. A. Ben-Tal, L. El Ghaoui, A. Nemirovski. 0.77
Robust Optimization. Princeton University Press, 2009. ロバスト最適化。 プリンストン大学出版局、2009年。 0.63
[5] Aharon Ben-Tal, Dick den Hertog, Anja De Waegenaere, Bertrand Melenberg, and Gijs Rennen. [5]Aharon Ben-Tal, Dick den Hertog, Anja de Waegenaere, Bertrand Melenberg, Gijs Rennen。 0.85
Robust solutions of optimization problems affected by uncertain probabilities. 不確かさに影響を受ける最適化問題のロバストな解。 0.54
Management Science, 59(2):341– 357, 2013. 管理科学、59(2):341–357、2013年。 0.81
[6] Claude Berge. 6] クロード・ベルジュ 0.44
Topological Spaces: including a treatment of multi-valued functions, vector spaces, and 位相空間:多値関数、ベクトル空間の扱いを含む 0.56
convexity. Courier Corporation, 1997. 凸性。 1997年、Courier Corporation。 0.75
[7] D. Bertsimas and M. Sim. 7] d. bertsimasとm. sim。 0.69
The price of robustness. Operations Research, 52(1):35–53, 2004. 堅牢性の価格です 運用研究、52(1):35-53、2004年。 0.68
[8] Dimitris Bertsimas, Vishal Gupta, and Nathan Kallus. 8]Dimitris Bertsimas, Vishal Gupta, Nathan Kallus。 0.55
Data-driven robust optimization. データ駆動型ロバスト最適化。 0.52
Mathematical Programming, 167(2):235–292, 2018. 数学 167(2):235-292, 2018。 0.69
[9] Dimitris Bertsimas and Nathan Kallus. 9]Dmitris BertsimasとNathan Kallus。 0.50
From predictive to prescriptive analytics. 予測から規範的分析までです 0.77
Management Science, 66(3):1025–1044, 2020. 経営学。 66(3):1025–1044, 2020. 0.68
[10] Dimitris Bertsimas and Bart Van Parys. 10]Dmitris BertsimasとBart Van Parys。 0.54
Bootstrap robust prescriptive analytics. Bootstrapの堅牢な規範分析。 0.62
arXiv preprint arXiv プレプリント 0.83
arXiv:1711.09974, 2017. arXiv:1711.09974, 2017。 0.60
[11] Christopher M. Bishop. クリストファー・M・ビショップ(Christopher M. Bishop)。 0.46
Pattern Recognition and Machine Learning. パターン認識と機械学習。 0.75
Springer, 2006. [12] L´eon Bottou, Jonas Peters, Joaquin Qui˜nonero-Candela, Denis X. Charles, D. Max Chickering, Elon Portugaly, Dipankar Ray, Patrice Simard, and Ed Snelson. 2006年春。 12] L ́eon Bottou, Jonas Peters, Joaquin Qui ~nonero-Candela, Denis X. Charles, D. Max Chickering, Elon Portugaly, Dipankar Ray, Patrice Simard, Ed Snelson。 0.74
Counterfactual reasoning and learning systems: The example of computational advertising. 対実的推論と学習システム: 計算広告の例。 0.78
Journal of Machine Learning Research, 14(65):3207–3260, 2013. Journal of Machine Learning Research, 14(65):3207–3260, 2013 0.93
[13] Giuseppe C. Calafiore. [13]Giuseppe C. Calafiore. 0.88
Ambiguous risk measures and optimal robust portfolios. 曖昧なリスク対策と最適なロバストポートフォリオ。 0.67
SIAM Journal on Optimization, 18(3):853–877, 2007. SIAMジャーナル 最適化, 18(3):853–877, 2007 0.68
[14] Corinna Cortes, Yishay Mansour, and Mehryar Mohri. 14]corinna cortes、yishay mansour、mehryar mohri。 0.50
Learning bounds for importance weighting. 重み付けの限界を学ぶこと。 0.56
In Advances in Neural Information Processing Systems, 2010. 院 ニューラル情報処理システム(2010年)の進歩 0.59
[15] T.M. Cover and J.A. [15]T.M. カバーとj. a. 0.77
Thomas. Elements of Information Theory. Thomas 情報理論の要素。 0.64
Wiley, 2006. 2006年、ワイリー。 0.59
[16] I. Csiszar. [16] シスザール 0.51
I-divergence geometry of probability distributions and minimization problems. 確率分布のi-ダイバージェンス幾何学と最小化問題 0.76
Annals of Annals (複数形 Annals) 0.36
Probability, 3(1):146–158, 02 1975. 確率 3(1):146–158, 02 1975。 0.88
[17] Imre Csisz´ar. [17] ire csisz ′ar. 0.86
Sanov property, generalized I-projection and a conditional limit theorem. サノフ性質、一般化i-射影、条件付き極限定理。 0.45
The Annals of Annals の略。 0.53
Probability, 12(3):768–793, 1984. 確率 12(3):768–793, 1984。 0.88
[18] Imre Csiszar and Janos Korner. [18]Imre Csiszar と Janos Korner。 0.79
Information Theory: Coding Theorems for Discrete Memoryless Sys- 情報理論:離散メモリレスシスの符号化理論- 0.77
tems. Academic Press, 1982. tems。 1982年、新聞社。 0.69
[19] E. Delage and Y. Ye. [19]E. Delage と Y. Ye. 0.95
Distributionally robust optimization under moment uncertainty with application モーメント不確実性を考慮した分散ロバスト最適化とその応用 0.47
to data-driven problems. データ駆動の問題に。 0.55
Operations Research, 58(3):595–612, 2010. 運用調査, 58(3):595-612, 2010 0.85
[20] A. Dembo and O. Zeitouni. [20]A. DemboとO. Zeitouni 0.84
Large Deviations Techniques and Applications. 大規模逸脱技術と応用 0.62
Springer, 2009. 20 2009年春。 20 0.68
英語(論文から抽出)日本語訳スコア
[21] Olivier Devolder, Fran¸cois Glineur, and Yurii Nesterov. 21] オリヴィエ・デボルダー、フラン・シコイ・グリネル、ユリイ・ネステロフ 0.45
Double smoothing technique for large-scale 大規模化のための二重平滑化技術 0.45
linearly constrained convex optimization. 線形制約付き凸最適化 0.84
SIAM Journal on Optimization, 22(2):702–727, 2012. SIAM Journal on Optimization, 22(2):702–727, 2012 0.92
[22] John Duchi and Hongseok Namkoong. [22]ジョン・ドゥチとホンソク・ナムコン。 0.61
Learning models with uniform performance via distributionally 分布的に一様性能を持つ学習モデル 0.80
robust optimization. arXiv preprint, arXiv.1810.08750, 2020. 堅牢な最適化 arXiv preprint, arXiv.1810.08750, 2020 0.80
[23] Miroslav Dudik, Dumitru Erhan, John Langford, and Lihong Li. 23]miroslav dudik、dumitru erhan、john langford、lihong li。 0.54
Doubly Robust Policy Evaluation and 二重ロバストな政策評価と 0.72
Optimization. Statistical Science, 29(4):485 – 511, 2014. 最適化。 統計学、29(4):485 - 511, 2014。 0.76
[24] Matthieu Geist, Bruno Scherrer, and Olivier Pietquin. Matthieu Geist氏、Bruno Scherrer氏、Olivier Pietquin氏。 0.55
A theory of regularized markov decision processes. 正則化マルコフ決定過程の理論。 0.60
In Proceedings of the 36th International Conference on Machine Learning, ICML, volume 97 of Proceedings of Machine Learning Research, pages 2160–2169. 第36回In Proceedings of the 36th International Conference on Machine Learning, ICML, Volume 97 of Proceedings of Machine Learning Research, page 2160–2169。 0.87
PMLR, 2019. 2019年、PMLR。 0.72
[25] J. Goh and M. Sim. 25]j・ゴッホとm・シム 0.57
Distributionally robust optimization and its tractable approximations. 分布ロバストな最適化とその扱いやすい近似 0.78
Operations Research, 58(4):902–917, 2010. 運行 58(4):902–917, 2010年。 0.62
[26] Amos Golan. [26]Amos Golan 0.64
Information and entropy econometrics: Review and synthesis. information and entropy econometrics: review and synthesis (英語) 0.80
Foundations and Trends in Econometrics, 2(1-2):1–145, 2008. 基礎と動向 Econometrics, 2(1-2):1–145, 2008 0.66
[27] O. Hern´andez-Lerma and J.B. Lasserre. O. Hern ́andez-Lerma と J.B. Lasserre 0.64
Discrete-Time Markov Control Processes: Basic Optimality 離散時間マルコフ制御過程:基本最適性 0.76
Criteria. Applications of Mathematics Series. 基準。 数学シリーズの登場。 0.62
Springer, 1996. 1996年、スプリンガー。 0.57
[28] Keisuke Hirano, Guido W. Imbens, and Geert Ridder. [28]平野敬助、グイド・W・イムベンス、ゲルト・リダー。 0.41
Efficient estimation of average treatment effects 平均治療効果の効率的な推定 0.85
using the estimated propensity score. 推定正当性スコアを使います 0.63
Econometrica, 71(4):1161–1189, 2003. Econometrica, 71(4):1161–1189, 2003。 0.88
[29] Joseph Horowitz and Rajeeva L. Karandikar. 29] joseph horowitz と rajeeva l. karandikar。 0.68
Mean rates of convergence of empirical measures in the 実証的尺度の収束率の平均 0.53
Wasserstein metric. ワッサースタイン計量学。 0.41
Journal of Computational and Applied Mathematics, 55(3):261 – 273, 1994. journal of computational and applied mathematics, 55(3):261 – 273, 1994年。 0.85
[30] Edwin T. Jaynes. 30] エドウィン・t・ジェインズ 0.55
Information theory and statistical mechanics. 情報理論と統計力学。 0.73
Physical Review, 108:171–190, 1957. 書評 108:171-190, 1957。 0.59
[31] Nan Jiang and Lihong Li. [31]ナン・ジャンとリョン・リー。 0.56
Doubly robust off-policy value evaluation for reinforcement learning. 強化学習のための強固なオフポリシー価値評価 0.75
In Proceedings of The 33rd International Conference on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pages 652–661. The 33rd International Conference on Machine Learning, Volume 48 of Proceedings of Machine Learning Research, pages 652–661 0.76
PMLR, 2016. 2016年、PMLR。 0.69
[32] Johannes Kirschner, Ilija Bogunovic, Stefanie Jegelka, and Andreas Krause. Johannes Kirschner氏、Ilija Bogunovic氏、Stefanie Jegelka氏、Andreas Krause氏。 0.65
Distributionally robust bayesian optimization. 分布性 ベイズ最適化。 0.64
In Artificial Intelligence and Statistics, pages 2174–2184, 2020. 人工知能と統計』2174-2184頁、2020年。 0.72
[33] Daniel Kuhn, Peyman Mohajerin Esfahani, Viet Anh Nguyen, and Soroosh Shafieezadeh Abadeh. [33]Daniel Kuhn, Peyman Mohajerin Esfahani, Viet Anh Nguyen, Soroosh Shafieezadeh Abadeh 0.69
Wasserstein distributionally robust optimization: Theory and applications in machine learning. wasserstein distributionally robust optimization: theory and applications in machine learning (英語) 0.87
INFORMS TutORials in Operations Research, 2019. INFORMS Tutorials in Operations Research, 2019 0.62
[34] S. Kullback. [34] S. Kullback. 0.97
Information Theory and Statistics. Wiley publication in mathematical statistics. 情報理論と統計学。 数学統計学におけるワイリー出版。 0.77
Wiley, 1959. Wiley 1959. 0.67
[35] Michail G. Lagoudakis and Ronald Parr. 935] Michail G. Lagoudakis と Ronald Parr 0.64
Least-squares policy iteration. 最小二乗政策の反復。 0.47
Journal on Machine Learning 機械学習に関するジャーナル 0.84
Research, 4:1107–1149, 2003. 4:1107-1149, 2003。 0.56
[36] Henry Lam. ヘンリー・ラム(Henry Lam)。 0.65
Robust sensitivity analysis for stochastic systems. 確率系のロバスト感度解析 0.54
Mathematics of Operations Research, オペレーション・リサーチの数学。 0.75
41(4):1248–1275, 2016. 41(4):1248–1275, 2016. 0.88
[37] Mengmeng Li, Tobias Sutter, and Daniel Kuhn. [37]Mengmeng Li、Tobias Sutter、Daniel Kuhn。 0.63
Distributionally robust optimization with Markovian Markovianによる分布的ロバスト最適化 0.65
data. International Conference on Machine Learning, 2021. to appear. データだ 国際機械学習会議(2021年)に参加。 0.72
[38] Shie Mannor, Duncan Simester, Peng Sun, and John N. Tsitsiklis. Shie Mannor氏、Duncan Simester氏、Peng Sun氏、John N. Tsitsiklis氏。 0.62
Bias and variance approximation in value function estimates. バイアスと分散近似 値関数の推定。 0.70
Management Science, 53(2):308–322, 2007. 経営科学、53(2):308-322, 2007。 0.69
[39] Peyman Mohajerin Esfahani and Daniel Kuhn. Peyman Mohajerin Esfahani氏とDaniel Kuhn氏。 0.65
Data-driven distributionally robust optimization using the Wasserstein metric: performance guarantees and tractable reformulations. wasserstein metrics: performance guarantees and tractable reformulationsを用いたデータ駆動の分散的ロバストな最適化。 0.71
Mathematical Programming, 171(1-2):115–166, 2018. 数学プログラミング 171(1-2):115–166, 2018。 0.77
21 21 0.85
英語(論文から抽出)日本語訳スコア
[40] Hongseok Namkoong and John C Duchi. [40]Hongseok NamkoongとJohn C Duchi。 0.79
Stochastic gradient methods for distributionally robust optimization with f-divergences. f-divergencesを用いた分布ロバスト最適化のための確率勾配法 0.64
In Advances in Neural Information Processing Systems, volume 29, pages 2208–2216, 2016. In Advances in Neural Information Processing Systems, Volume 29 page 2208–2216, 2016 0.77
[41] Angelia Nedi´c and Asuman Ozdaglar. [41]Angelia Nedi ́cとAsuman Ozdaglar。 0.78
Approximate primal solutions and rate analysis for dual subgra- 双対サブグラの近似原始解と速度解析 0.73
dient methods. SIAM Journal on Optimization, 19(4):1757–1780, 2008. 勤勉な方法。 SIAM Journal on Optimization, 19(4):1757–1780, 2008 0.70
[42] Y. Nesterov and A. Nemirovskii. 42] y. nesterov と a. nemirovskii 。 0.75
Interior-Point Polynomial Algorithms in Convex Programming, vol- 凸プログラミングにおける内点多項式アルゴリズム(Vol-) 0.55
ume 13 of Studies in Applied and Numerical Mathematics. 応用数学および数値数学の研究の梅13。 0.71
SIAM, 1994. 1994年、SIAM。 0.74
[43] Yurii Nesterov. 43]Yurii Nesterov氏。 0.69
Smooth minimization of non-smooth functions. 非スムース関数の滑らかな最小化 0.74
Mathematical Programming, 103(1):127– 数理プログラミング, 103(1):127- 0.84
152, 2005. 152, 2005. 0.85
[44] Yurii Nesterov. 44]Yurii Nesterov氏。 0.69
Introductory Lectures on Convex Optimization: A Basic Course. 凸最適化入門講義:基礎講座。 0.55
Springer, 1 edition, Springer, 1 版。 0.79
2014. [45] Gergely Neu, Anders Jonsson, and Vicen¸c G´omez. 2014. He45] Gergely Neu, Anders Jonsson, Vicen G omez。 0.79
A unified view of entropy-regularized Markov decision エントロピー規則化マルコフ決定の統一的見解 0.66
processes. arXiv preprint arXiv:1705.07798, 2017. プロセス。 arXiv preprint arXiv:1705.07798, 2017 0.76
[46] Doina Precup, Richard S. Sutton, and Satinder P. Singh. 46]Doina Precup, Richard S. Sutton, Satinder P. Singh 0.72
Eligibility traces for off-policy policy evaluation. In Proceedings of the Seventeenth International Conference on Machine Learning, ICML ’00, pages 759–766, 2000. 政策評価の適格性 第17回機械学習国際会議(ICML'00, page 759-766, 2000)の成果。 0.57
[47] Joaquin Quionero-Candela, Masashi Sugiyama, Anton Schwaighofer, and Neil D. Lawrence. [47]Joaquin Quionero-Candela, Sugiyama Masashi, Anton Schwaighofer, Neil D. Lawrence 0.76
Dataset Shift in Machine Learning. データセット 機械学習へのシフト。 0.72
The MIT Press, 2009. 2009年、MIT出版。 0.52
[48] S. Richter. [48] s・リヒター 0.51
Computational Complexity Certification of Gradient Methods for Real-Time Model Predictive リアルタイムモデル予測のための勾配法の計算複雑性認定 0.69
Control. PhD thesis, ETH Zurich, 2012. コントロール。 博士論文、ETH Zurich, 2012。 0.75
[49] R. Tyrrell Rockafellar. 49] R. Tyrrell Rockafellar. 0.81
Convex analysis. Princeton Landmarks in Mathematics and Physics Series. 凸解析。 Princeton Landmarks in Mathematics and Physics Series(英語) 0.72
Princeton University Press, 1997. プリンストン大学出版局、1997年。 0.68
[50] Paul R. Rosenbaum and Donald B. Rubin. 50]ポール・r・ローゼンバウムとドナルド・b・ルービン 0.64
The central role of the propensity score in observational 観測における確率スコアの中心的役割 0.78
studies for causal effects. Biometrika, 70(1):41–55, 1983. 因果効果の研究です ビオメトリカ 70(1):41–55, 1983。 0.69
[51] Bernhard Sch¨olkopf and Alexander J. Smola. ベルンハルト・シュ・ソルコプフとアレクサンドル・J・スモラ。 0.44
Learning with Kernels: Support Vector Machines, Regu- カーネルによる学習: ベクターマシンのサポート、regu- 0.76
larization, Optimization, and Beyond. ラーライゼーション、最適化、そしてそれ以上です。 0.58
MIT Press, 2001. 2001年、MIT出版。 0.65
[52] Soroosh Shafieezadeh-Abadeh, Daniel Kuhn, and Peyman Mohajerin Esfahani. 52] soroosh shafieezadeh-abadeh, daniel kuhn, peyman mohajerin esfahani。 0.60
Regularization via mass transportation. 質量による正規化 交通機関。 0.65
Journal of Machine Learning Research, 20(103):1–68, 2019. Journal of Machine Learning Research, 20(103):1–68, 2019 0.92
[53] Soroosh Shafieezadeh Abadeh, Peyman Mohajerin Mohajerin Esfahani, and Daniel Kuhn. 53] soroosh shafieezadeh abadeh、peyman mohajerin mohajerin esfahani、daniel kuhn。 0.50
Distributionally robust logistic regression. 分布的ロジスティック回帰。 0.61
In Advances in Neural Information Processing Systems, volume 28, pages 1576–1584, 2015. In Advances in Neural Information Processing Systems, Volume 28 page 1576–1584, 2015 0.78
[54] Hidetoshi Shimodaira. Improving predictive inference under covariate shift by weighting the log- [54]下平秀俊。 ログの重み付けによる共変量シフトによる予測推論の改善 0.62
likelihood function. Journal of Statistical Planning and Inference, 90(2):227 – 244, 2000. 可能性関数。 journal of statistical planning and inference, 90(2):227 – 244, 2000を参照。 0.76
[55] Patrick Smadbeck and Yiannis N. Kaznessis. [55]Patrick SmadbeckとYiannis N. Kaznessis。 0.84
On a theory of stability for nonlinear stochastic chemical 非線形確率化学の安定性の理論について 0.79
reaction networks. The Journal of Chemical Physics, 142(18), 2015. 反応ネットワーク The Journal of Chemical Physics, 142(18, 2015)。 0.66
[56] Matthew Staib and Stefanie Jegelka. 56]マシュー・スタイブと ステファニー・ジェルカ 0.49
Distributionally robust optimization and generalization in kernel カーネルにおける分散ロバスト最適化と一般化 0.63
methods. In Advances in Neural Information Processing Systems, volume 32, pages 9134–9144, 2019. 方法。 Advances in Neural Information Processing Systems, Volume 32, page 9134–9144, 2019。 0.74
[57] Alexander L. Strehl, John Langford, Lihong Li, and Sham M. Kakade. 957]Alexander L. Strehl, John Langford, Lihong Li, Sham M. Kakade. 0.73
Learning from logged implicit exploration data. 暗黙のログから学ぶ 調査データ。 0.65
In NIPS, pages 2217–2225, 2010. NIPS、2010年、2217-2225頁。 0.69
[58] Masashi Sugiyama and Motoaki Kawanabe. [58]杉山正、川鍋元秋 0.48
Machine Learning in Non-Stationary Environments: In- 非定常環境における機械学習:- 0.77
troduction to Covariate Shift Adaptation. Covariate Shift Adaptationに移行。 0.71
The MIT Press, 2012. 2012年、MIT出版局。 0.54
22 22 0.85
英語(論文から抽出)日本語訳スコア
[59] Masashi Sugiyama, Matthias Krauledat, and Klaus-Robert M¨uller. [59]杉山正、マティアス・クルエダート、クラウス=ロバート・m・シュルラー 0.41
Covariate shift adaptation by im- imによる共変量シフト適応 0.73
portance weighted cross validation. ポートランス重み付きクロス検証 0.61
Journal of Machine Learning Research, 8(35):985–1005, 2007. Journal of Machine Learning Research, 8(35):985–1005, 2007 0.89
[60] Masashi Sugiyama and Klaus-Robert M¨uller. [60]杉山正とクラウス・ロバート・M・シュラー。 0.46
Input-dependent estimation of generalization error under 一般化誤差の入力依存推定 0.84
covariate shift. Statistics & Decisions, 23:249–279, 01 2005. 共変量シフト 統計、23:249-279、01 2005。 0.65
[61] Rangarajan K. Sundaram. 61] ランガラジャン・k・スンダラム 0.50
A First Course in Optimization Theory. 最適化理論の第1コース。 0.82
Cambridge University Press, 1996. ケンブリッジ大学出版局、1996年。 0.63
[62] Tobias Sutter, Bart P. G. Van Parys, and Daniel Kuhn. [62] tobias sutter、bart p. g. van parys、daniel kuhn。 0.55
A general framework for optimal data-driven 最適データ駆動のための汎用フレームワーク 0.68
optimization. arXiv preprint, 2010.06606, 2020. 最適化。 arXiv preprint 201006606, 2020 0.65
[63] Tobias Sutter, David Sutter, Peyman Mohajerin Esfahani, and John Lygeros. Tobias Sutter氏、David Sutter氏、Peyman Mohajerin Esfahani氏、John Lygeros氏。 0.66
Generalized maximum entropy estimation. 一般最大値 エントロピー推定。 0.69
Journal of Machine Learning Research, 20(138):1–29, 2019. Journal of Machine Learning Research, 20(138):1-29, 2019 0.88
[64] Richard S. Sutton and Andrew G. Barto. 64] リチャード・s・サットンとアンドリュー・g・バート 0.73
Reinforcement Learning: An Introduction. The MIT Press, 強化学習: 入門。 MITの報道機関。 0.62
second edition, 2018. 第2版、2018年。 0.62
[65] Adith Swaminathan and Thorsten Joachims. 65]Adith SwaminathanとThorsten Joachims。 0.64
Counterfactual risk minimization: Learning from logged bandit feedback. リスク最小化: ログ化された盗聴フィードバックから学ぶ。 0.64
In Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pages 814–823. 第32回In Proceedings of the 32th International Conference on Machine Learning, Volume 37 of Proceedings of Machine Learning Research, page 814–823。 0.86
PMLR, 2015. 2015年、PMLR。 0.70
[66] Adith Swaminathan and Thorsten Joachims. 66]アディス・スワミナサンとトルステン・ヨアヒム。 0.53
The self-normalized estimator for counterfactual learning. 対実学習のための自己正規化推定器 0.54
In Advances in Neural Information Processing Systems, volume 28, 2015. In Advances in Neural Information Processing Systems, Volume 28 2015 (英語) 0.75
[67] Philip Thomas and Emma Brunskill. フィリップ・トーマスとエマ・ブランスキル。 0.50
Data-efficient off-policy policy evaluation for reinforcement learning. 強化学習のためのデータ効率のオフポリシー政策評価 0.71
In Proceedings of The 33rd International Conference on Machine Learning, volume 48 of Proceedings of Machine Learning Research, pages 2139–2148. The 33rd International Conference on Machine Learning, Volume 48 of Proceedings of Machine Learning Research, page 2139–2148 0.75
PMLR, 2016. 2016年、PMLR。 0.69
[68] Bart Van Parys, Peyman Mohajerin Esfahani, and Daniel Kuhn. Bart Van Parys氏、Peyman Mohajerin Esfahani氏、Daniel Kuhn氏。 0.58
From data to decisions: Distribution- データから意思決定へ:分配- 0.78
ally robust optimization is optimal. アリロバストな最適化は最適です 0.65
Management Science, 2021. 経営学、2021年。 0.63
Articles in Advance. [69] V.N. 先進的な記事。 [69]v.n. 0.71
Vapnik. Statistical Learning Theory. Vapnik 統計的学習理論。 0.68
Wiley, 1998. 1998年、ウィリー。 0.62
[70] W. Wiesemann, D. Kuhn, and M. Sim. 70] w. wiesemann, d. kuhn, m. sim. 0.70
Distributionally robust convex optimization. 分布ロバストな凸最適化。 0.68
Operations Re- search, 62(6):1358–1376, 2014. 運用再開 search, 62(6):1358–1376, 2014。 0.75
[71] Makoto Yamada, Taiji Suzuki, Takafumi Kanamori, Hirotaka Hachiya, and Masashi Sugiyama. 〔71〕山田誠、鈴木泰治、金森高文、八屋広隆、杉山正志 0.49
Relative density-ratio estimation for robust distribution comparison. ロバスト分布比較のための相対密度比推定 0.87
In Advances in Neural Information Processing Systems, volume 24, pages 594–602, 2011. Advances in Neural Information Processing Systems, Volume 24, page 594–602, 2011 0.73
[72] Bianca Zadrozny. ビアンカ・ザドロズヌイ(Bianca Zadrozny)。 0.41
Learning and evaluating classifiers under sample selection bias. サンプル選択バイアス下での分類器の学習と評価 0.79
In Proceedings of the Twenty-First International Conference on Machine Learning, page 114, 2004. 訴訟の手続において 第20回機械学習国際会議 2004年1月1日閲覧。 0.62
[73] Jingzhao Zhang, Aditya Menon, Andreas Veit, Srinadh Bhojanapalli, Sanjiv Kumar, and Suvrit Sra. [73]Jingzhao Zhang、Aditya Menon、Andreas Veit、Srinadh Bhojanapalli、Sanjiv Kumar、Suvrit Sra。 0.66
Coping with label shift via distributionally robust optimisation. 分散ロバストな最適化によるラベルシフトの符号化 0.61
arXiv preprint, arXiv.2010.12230, 2020. arXiv preprint, arXiv.2010.12230, 2020 0.84
23 23 0.85
                                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。