論文の概要: Rejoinder: Learning Optimal Distributionally Robust Individualized
Treatment Rules
- arxiv url: http://arxiv.org/abs/2110.08936v1
- Date: Sun, 17 Oct 2021 22:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 08:20:29.652830
- Title: Rejoinder: Learning Optimal Distributionally Robust Individualized
Treatment Rules
- Title(参考訳): Rejoinder: 最適分散ロバスト個別処理規則の学習
- Authors: Weibin Mo, Zhengling Qi and Yufeng Liu
- Abstract要約: 私たちはまず、我々の仕事とKallus(2020年)の間の興味深いつながりと区別を指摘した。
トレーニングとテストのサンプルサイズが同じ順序で成長しているという仮定の下では、効率的な値関数推定が競争力のあるパフォーマンスをもたらすことが示される。
対照的に、DRITRのサンプルサイズテストの要件は、組み合わせたデータを用いた効率的な政策評価の要件ほど強くない。
- 参考スコア(独自算出の注目度): 3.158346511479111
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We thank the opportunity offered by editors for this discussion and the
discussants for their insightful comments and thoughtful contributions. We also
want to congratulate Kallus (2020) for his inspiring work in improving the
efficiency of policy learning by retargeting. Motivated from the discussion in
Dukes and Vansteelandt (2020), we first point out interesting connections and
distinctions between our work and Kallus (2020) in Section 1. In particular,
the assumptions and sources of variation for consideration in these two papers
lead to different research problems with different scopes and focuses. In
Section 2, following the discussions in Li et al. (2020); Liang and Zhao
(2020), we also consider the efficient policy evaluation problem when we have
some data from the testing distribution available at the training stage. We
show that under the assumption that the sample sizes from training and testing
are growing in the same order, efficient value function estimates can deliver
competitive performance. We further show some connections of these estimates
with existing literature. However, when the growth of testing sample size
available for training is in a slower order, efficient value function estimates
may not perform well anymore. In contrast, the requirement of the testing
sample size for DRITR is not as strong as that of efficient policy evaluation
using the combined data. Finally, we highlight the general applicability and
usefulness of DRITR in Section 3.
- Abstract(参考訳): 私たちは、この議論に対して編集者と議論者が提示した機会に感謝します。
また、再ターゲティングによる政策学習の効率向上に熱心に取り組んでいたkallus氏(2020年)を祝福したい。
Dukes and Vansteelandt (2020) での議論から動機づけられた我々は、まず第1節で、我々の仕事とKallus (2020) の間の興味深いつながりと区別を指摘した。
特に、これらの2つの論文における仮定と変化の源泉は、異なるスコープと焦点を持つ異なる研究問題に繋がる。
第2節では、li et al.(2020)、liang and zhao(2020)での議論に続いて、トレーニング段階で利用可能なテストディストリビューションからのデータがある場合、効率的なポリシー評価の問題についても検討する。
トレーニングとテストのサンプルサイズが同じ順序で成長しているという仮定の下では、効率的な値関数推定が競争力のあるパフォーマンスをもたらすことを示す。
さらに、これらの推定と既存の文献との関連性を示す。
しかし、トレーニングで利用可能なサンプルサイズのテストが遅い場合、効率的な値関数の推定はもはやうまくいかないかもしれない。
対照的に、DRITRの試験サンプルサイズは、組み合わせたデータを用いた効率的な政策評価の要件ほど強くない。
最後に,第3節におけるDRITRの適用性と有用性について述べる。
関連論文リスト
- Monitoring AI-Modified Content at Scale: A Case Study on the Impact of
ChatGPT on AI Conference Peer Reviews [52.60513069182062]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - Lexical Repetitions Lead to Rote Learning: Unveiling the Impact of
Lexical Overlap in Train and Test Reference Summaries [131.80860903537172]
理想的な要約モデルは、roteによる参照トレーニング要約を覚えることなく、新しい要約価値のあるコンテンツに一般化すべきである。
本稿では,参照テストサマリーとトレーニングサマリーの語彙的類似性に基づいて,テストセットを分割し,詳細な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2023-11-15T23:47:53Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Marginal and Joint Cross-Entropies & Predictives for Online Bayesian
Inference, Active Learning, and Active Sampling [37.97228752843909]
最近の研究は、理論的・合成的な観点からの逐次的意思決定における共同予測の重要性を強調している。
オンラインベイズ推論について論じるが、これは再トレーニングせずに追加データを考慮しながら予測を行うことができる。
これらの設定は、限界予測と共同予測、それぞれのクロスエントロピー、およびオフラインおよびオンライン学習におけるそれらの場所の検証によって動機付けられている。
論文 参考訳(メタデータ) (2022-05-18T07:24:49Z) - Prompt-based Pre-trained Model for Personality and Interpersonal
Reactivity Prediction [19.288384399961867]
本稿では、LingJingチームによる主観性・感性・ソーシャルメディア分析に関するワークショップ(WASSA)2022におけるパーソナリティ予測(PER)と反応性指標予測(IRI)の共有タスクについて述べる。
論文 参考訳(メタデータ) (2022-03-23T15:22:34Z) - Separating Retention from Extraction in the Evaluation of End-to-end
Relation Extraction [11.510853401995211]
既知の事実の保持は、標準ベンチマークにおけるパフォーマンスの重要な要素であることを示す。
ある実験では、中間型表現が使えるパイプラインモデルは、保持を過度に繰り返す傾向が低いことを示唆している。
論文 参考訳(メタデータ) (2021-09-24T15:04:39Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Minimax Value Interval for Off-Policy Evaluation and Policy Optimization [28.085288472120705]
価値関数と限界値重みを用いたオフ政治評価のためのミニマックス法について検討した。
従来の重要度サンプリングにおける指数的分散を克服する約束があるにもかかわらず、いくつかの重要な問題が残っている。
信頼できるOPEのために、偏見を定量化する手段はあるのだろうか?
論文 参考訳(メタデータ) (2020-02-06T02:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。