Fugu-MT 論文翻訳(概要): Rejoinder: Learning Optimal Distributionally Robust Individualized Treatment Rules

論文の概要: Rejoinder: Learning Optimal Distributionally Robust Individualized Treatment Rules

arxiv url: http://arxiv.org/abs/2110.08936v1
Date: Sun, 17 Oct 2021 22:19:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-20 08:20:29.652830
Title: Rejoinder: Learning Optimal Distributionally Robust Individualized Treatment Rules
Title（参考訳）: Rejoinder: 最適分散ロバスト個別処理規則の学習
Authors: Weibin Mo, Zhengling Qi and Yufeng Liu
Abstract要約: 私たちはまず、我々の仕事とKallus(2020年)の間の興味深いつながりと区別を指摘した。トレーニングとテストのサンプルサイズが同じ順序で成長しているという仮定の下では、効率的な値関数推定が競争力のあるパフォーマンスをもたらすことが示される。対照的に、DRITRのサンプルサイズテストの要件は、組み合わせたデータを用いた効率的な政策評価の要件ほど強くない。
参考スコア（独自算出の注目度）: 3.158346511479111
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We thank the opportunity offered by editors for this discussion and the discussants for their insightful comments and thoughtful contributions. We also want to congratulate Kallus (2020) for his inspiring work in improving the efficiency of policy learning by retargeting. Motivated from the discussion in Dukes and Vansteelandt (2020), we first point out interesting connections and distinctions between our work and Kallus (2020) in Section 1. In particular, the assumptions and sources of variation for consideration in these two papers lead to different research problems with different scopes and focuses. In Section 2, following the discussions in Li et al. (2020); Liang and Zhao (2020), we also consider the efficient policy evaluation problem when we have some data from the testing distribution available at the training stage. We show that under the assumption that the sample sizes from training and testing are growing in the same order, efficient value function estimates can deliver competitive performance. We further show some connections of these estimates with existing literature. However, when the growth of testing sample size available for training is in a slower order, efficient value function estimates may not perform well anymore. In contrast, the requirement of the testing sample size for DRITR is not as strong as that of efficient policy evaluation using the combined data. Finally, we highlight the general applicability and usefulness of DRITR in Section 3.
Abstract（参考訳）: 私たちは、この議論に対して編集者と議論者が提示した機会に感謝します。また、再ターゲティングによる政策学習の効率向上に熱心に取り組んでいたkallus氏(2020年)を祝福したい。 Dukes and Vansteelandt (2020) での議論から動機づけられた我々は、まず第1節で、我々の仕事とKallus (2020) の間の興味深いつながりと区別を指摘した。特に、これらの2つの論文における仮定と変化の源泉は、異なるスコープと焦点を持つ異なる研究問題に繋がる。第2節では、li et al.(2020)、liang and zhao(2020)での議論に続いて、トレーニング段階で利用可能なテストディストリビューションからのデータがある場合、効率的なポリシー評価の問題についても検討する。トレーニングとテストのサンプルサイズが同じ順序で成長しているという仮定の下では、効率的な値関数推定が競争力のあるパフォーマンスをもたらすことを示す。さらに、これらの推定と既存の文献との関連性を示す。しかし、トレーニングで利用可能なサンプルサイズのテストが遅い場合、効率的な値関数の推定はもはやうまくいかないかもしれない。対照的に、DRITRの試験サンプルサイズは、組み合わせたデータを用いた効率的な政策評価の要件ほど強くない。最後に,第3節におけるDRITRの適用性と有用性について述べる。

関連論文リスト

Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文参考訳（メタデータ） (2025-07-24T21:11:39Z)
Dissecting Long Reasoning Models: An Empirical Study [94.31064312707211]
強化学習(RL)における正・負のサンプルの役割を系統的に分析する。グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文参考訳（メタデータ） (2025-06-05T11:47:10Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文参考訳（メタデータ） (2024-10-20T15:58:43Z)
From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。 LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文参考訳（メタデータ） (2024-08-09T20:35:10Z)
ZZU-NLP at SIGHAN-2024 dimABSA Task: Aspect-Based Sentiment Analysis with Coarse-to-Fine In-context Learning [0.36332383102551763]
DimABSAタスクはレストランレビューに微妙な感情強度予測を必要とする。そこで本稿では,DimABSAタスクに対するBaichuan2-7Bモデルに基づく大まかなインコンテクスト学習手法を提案する。
論文参考訳（メタデータ） (2024-07-22T02:54:46Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Graded Relevance Scoring of Written Essays with Dense Retrieval [4.021352247826289]
本稿では,高密度検索エンコーダを用いたエッセイの妥当性評価手法を提案する。コントラスト学習で事前学習されたContrieverを活用し,教師付き高密度検索モデルに匹敵する性能を示した。本手法はタスク固有のシナリオにおいて新しい最先端性能を確立し,クロスタスクシナリオに対する拡張は,そのシナリオに対する最先端モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-05-08T16:37:58Z)
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews [51.453135368388686]
本稿では,大規模言語モデル (LLM) によって実質的に修正あるいは生成される可能性のある大規模コーパスにおけるテキストの分数推定手法を提案する。我々の最大可能性モデルは、専門家による参照テキストとAIによる参照テキストを利用して、コーパスレベルでの実世界のLLM使用を正確かつ効率的に検証する。
論文参考訳（メタデータ） (2024-03-11T21:51:39Z)
Lexical Repetitions Lead to Rote Learning: Unveiling the Impact of Lexical Overlap in Train and Test Reference Summaries [131.80860903537172]
理想的な要約モデルは、roteによる参照トレーニング要約を覚えることなく、新しい要約価値のあるコンテンツに一般化すべきである。本稿では,参照テストサマリーとトレーニングサマリーの語彙的類似性に基づいて,テストセットを分割し,詳細な評価プロトコルを提案する。
論文参考訳（メタデータ） (2023-11-15T23:47:53Z)
Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文参考訳（メタデータ） (2022-12-29T22:01:43Z)
Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文参考訳（メタデータ） (2022-08-26T19:50:46Z)
Marginal and Joint Cross-Entropies & Predictives for Online Bayesian Inference, Active Learning, and Active Sampling [37.97228752843909]
最近の研究は、理論的・合成的な観点からの逐次的意思決定における共同予測の重要性を強調している。オンラインベイズ推論について論じるが、これは再トレーニングせずに追加データを考慮しながら予測を行うことができる。これらの設定は、限界予測と共同予測、それぞれのクロスエントロピー、およびオフラインおよびオンライン学習におけるそれらの場所の検証によって動機付けられている。
論文参考訳（メタデータ） (2022-05-18T07:24:49Z)
Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文参考訳（メタデータ） (2020-07-27T22:19:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。