論文の概要: Rejoinder: Learning Optimal Distributionally Robust Individualized
Treatment Rules
- arxiv url: http://arxiv.org/abs/2110.08936v1
- Date: Sun, 17 Oct 2021 22:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 08:20:29.652830
- Title: Rejoinder: Learning Optimal Distributionally Robust Individualized
Treatment Rules
- Title(参考訳): Rejoinder: 最適分散ロバスト個別処理規則の学習
- Authors: Weibin Mo, Zhengling Qi and Yufeng Liu
- Abstract要約: 私たちはまず、我々の仕事とKallus(2020年)の間の興味深いつながりと区別を指摘した。
トレーニングとテストのサンプルサイズが同じ順序で成長しているという仮定の下では、効率的な値関数推定が競争力のあるパフォーマンスをもたらすことが示される。
対照的に、DRITRのサンプルサイズテストの要件は、組み合わせたデータを用いた効率的な政策評価の要件ほど強くない。
- 参考スコア(独自算出の注目度): 3.158346511479111
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We thank the opportunity offered by editors for this discussion and the
discussants for their insightful comments and thoughtful contributions. We also
want to congratulate Kallus (2020) for his inspiring work in improving the
efficiency of policy learning by retargeting. Motivated from the discussion in
Dukes and Vansteelandt (2020), we first point out interesting connections and
distinctions between our work and Kallus (2020) in Section 1. In particular,
the assumptions and sources of variation for consideration in these two papers
lead to different research problems with different scopes and focuses. In
Section 2, following the discussions in Li et al. (2020); Liang and Zhao
(2020), we also consider the efficient policy evaluation problem when we have
some data from the testing distribution available at the training stage. We
show that under the assumption that the sample sizes from training and testing
are growing in the same order, efficient value function estimates can deliver
competitive performance. We further show some connections of these estimates
with existing literature. However, when the growth of testing sample size
available for training is in a slower order, efficient value function estimates
may not perform well anymore. In contrast, the requirement of the testing
sample size for DRITR is not as strong as that of efficient policy evaluation
using the combined data. Finally, we highlight the general applicability and
usefulness of DRITR in Section 3.
- Abstract(参考訳): 私たちは、この議論に対して編集者と議論者が提示した機会に感謝します。
また、再ターゲティングによる政策学習の効率向上に熱心に取り組んでいたkallus氏(2020年)を祝福したい。
Dukes and Vansteelandt (2020) での議論から動機づけられた我々は、まず第1節で、我々の仕事とKallus (2020) の間の興味深いつながりと区別を指摘した。
特に、これらの2つの論文における仮定と変化の源泉は、異なるスコープと焦点を持つ異なる研究問題に繋がる。
第2節では、li et al.(2020)、liang and zhao(2020)での議論に続いて、トレーニング段階で利用可能なテストディストリビューションからのデータがある場合、効率的なポリシー評価の問題についても検討する。
トレーニングとテストのサンプルサイズが同じ順序で成長しているという仮定の下では、効率的な値関数推定が競争力のあるパフォーマンスをもたらすことを示す。
さらに、これらの推定と既存の文献との関連性を示す。
しかし、トレーニングで利用可能なサンプルサイズのテストが遅い場合、効率的な値関数の推定はもはやうまくいかないかもしれない。
対照的に、DRITRの試験サンプルサイズは、組み合わせたデータを用いた効率的な政策評価の要件ほど強くない。
最後に,第3節におけるDRITRの適用性と有用性について述べる。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - ZZU-NLP at SIGHAN-2024 dimABSA Task: Aspect-Based Sentiment Analysis with Coarse-to-Fine In-context Learning [0.36332383102551763]
DimABSAタスクはレストランレビューに微妙な感情強度予測を必要とする。
そこで本稿では,DimABSAタスクに対するBaichuan2-7Bモデルに基づく大まかなインコンテクスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T02:54:46Z) - Graded Relevance Scoring of Written Essays with Dense Retrieval [4.021352247826289]
本稿では,高密度検索エンコーダを用いたエッセイの妥当性評価手法を提案する。
コントラスト学習で事前学習されたContrieverを活用し,教師付き高密度検索モデルに匹敵する性能を示した。
本手法はタスク固有のシナリオにおいて新しい最先端性能を確立し,クロスタスクシナリオに対する拡張は,そのシナリオに対する最先端モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-05-08T16:37:58Z) - Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。
我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文 参考訳(メタデータ) (2024-03-11T21:51:39Z) - Lexical Repetitions Lead to Rote Learning: Unveiling the Impact of
Lexical Overlap in Train and Test Reference Summaries [131.80860903537172]
理想的な要約モデルは、roteによる参照トレーニング要約を覚えることなく、新しい要約価値のあるコンテンツに一般化すべきである。
本稿では,参照テストサマリーとトレーニングサマリーの語彙的類似性に基づいて,テストセットを分割し,詳細な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2023-11-15T23:47:53Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Marginal and Joint Cross-Entropies & Predictives for Online Bayesian
Inference, Active Learning, and Active Sampling [37.97228752843909]
最近の研究は、理論的・合成的な観点からの逐次的意思決定における共同予測の重要性を強調している。
オンラインベイズ推論について論じるが、これは再トレーニングせずに追加データを考慮しながら予測を行うことができる。
これらの設定は、限界予測と共同予測、それぞれのクロスエントロピー、およびオフラインおよびオンライン学習におけるそれらの場所の検証によって動機付けられている。
論文 参考訳(メタデータ) (2022-05-18T07:24:49Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。