論文の概要: Semi-Counterfactual Risk Minimization Via Neural Networks
- arxiv url: http://arxiv.org/abs/2209.07148v1
- Date: Thu, 15 Sep 2022 08:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:21:43.687567
- Title: Semi-Counterfactual Risk Minimization Via Neural Networks
- Title(参考訳): ニューラルネットワークによる半カントリー的リスク最小化
- Authors: Gholamali Aminian, Roberto Vega, Omar Rivasplata, Laura Toni, Miguel
Rodrigues
- Abstract要約: 本研究では,いくつかのサンプルに対する報酬が観測されないような設定のための学習手法を提案する。
この設定は、広告やヘルスケアを含む多くのアプリケーションドメインで発生します。
本稿では,ログ化された未知回帰データセットのみに基づいて正規化項を定式化する正則化対実リスク最小化手法を提案する。
- 参考スコア(独自算出の注目度): 9.916007792223139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counterfactual risk minimization is a framework for offline policy
optimization with logged data which consists of context, action, propensity
score, and reward for each sample point. In this work, we build on this
framework and propose a learning method for settings where the rewards for some
samples are not observed, and so the logged data consists of a subset of
samples with unknown rewards and a subset of samples with known rewards. This
setting arises in many application domains, including advertising and
healthcare. While reward feedback is missing for some samples, it is possible
to leverage the unknown-reward samples in order to minimize the risk, and we
refer to this setting as semi-counterfactual risk minimization. To approach
this kind of learning problem, we derive new upper bounds on the true risk
under the inverse propensity score estimator. We then build upon these bounds
to propose a regularized counterfactual risk minimization method, where the
regularization term is based on the logged unknown-rewards dataset only; hence
it is reward-independent. We also propose another algorithm based on generating
pseudo-rewards for the logged unknown-rewards dataset. Experimental results
with neural networks and benchmark datasets indicate that these algorithms can
leverage the logged unknown-rewards dataset besides the logged known-reward
dataset.
- Abstract(参考訳): 対物リスク最小化は、各サンプルポイントに対するコンテキスト、アクション、確率スコア、報酬からなるログデータによるオフラインポリシー最適化のためのフレームワークである。
本研究では,このフレームワークを基礎として,いくつかのサンプルに対する報酬が観測されない設定の学習方法を提案し,ログデータには未知の報酬を持つサンプルのサブセットと既知の報酬を持つサンプルのサブセットが含まれている。
この設定は、広告やヘルスケアを含む多くのアプリケーションドメインで発生します。
いくつかのサンプルには報酬フィードバックがないが、リスクを最小限に抑えるために未知のリワードサンプルを利用することが可能であり、この設定を半事実的リスク最小化と呼ぶ。
このような学習問題にアプローチするために、逆確率スコア推定器の下で真リスクの新しい上限を導出する。
そこで, 正規化項は, ログ化された未知回帰データセットのみに基づいており, 報酬に依存しない正規化対実的リスク最小化法を提案する。
また,logged unknown-rewardsデータセットに対して擬似rewardsを生成するアルゴリズムを提案する。
ニューラルネットワークとベンチマークデータセットによる実験結果から、これらのアルゴリズムは、ログ化された既知のリワードデータセットに加えて、ログ化された未知のリワードデータセットを利用することができる。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF [10.43364672415871]
実際には、人間のフィードバックからの好みの学習は、隠れたコンテキストを持つ不完全なデータに依存する。
本研究では、人間のフィードバックからの強化学習を含む嗜好学習の標準的な応用が、隠れた文脈の上に暗黙的に集約されていることを示す。
隠れコンテキストをよりよく考慮するために,分布選好学習(DPL)と呼ばれる手法のクラスを導入する。
論文 参考訳(メタデータ) (2023-12-13T18:51:34Z) - On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling [3.5253513747455303]
そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。
論文 参考訳(メタデータ) (2023-11-14T16:37:28Z) - Solving Inverse Problems with Score-Based Generative Priors learned from
Noisy Data [1.7969777786551424]
SURE-Scoreは、加法ガウス雑音で劣化したトレーニングサンプルを用いてスコアベースの生成モデルを学習するためのアプローチである。
2つの実践的応用において,SURE-Scoreの事前学習と逆問題に対する後続サンプリングの適用による一般化を実証する。
論文 参考訳(メタデータ) (2023-05-02T02:51:01Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Unsupervised Few-shot Learning via Deep Laplacian Eigenmaps [13.6555672824229]
深層ラプラシア固有写像を用いた教師なし数ショット学習法を提案する。
本手法は,類似したサンプルをグループ化することで,ラベルのないデータから表現を学習する。
我々は、教師なし学習において、ラプラシアン固有写像が崩壊した表現をいかに避けるかを解析的に示す。
論文 参考訳(メタデータ) (2022-10-07T14:53:03Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Proposal Learning for Semi-Supervised Object Detection [76.83284279733722]
地上の真理ラベルが利用できないため、ラベルのないデータで物体検出器を訓練するのは簡単ではない。
ラベル付きデータとラベルなしデータの両方から提案特徴と予測を学習するための提案学習手法を提案する。
論文 参考訳(メタデータ) (2020-01-15T00:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。