論文の概要: Semi-supervised Batch Learning From Logged Data
- arxiv url: http://arxiv.org/abs/2209.07148v3
- Date: Sun, 18 Feb 2024 15:26:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 07:49:49.562413
- Title: Semi-supervised Batch Learning From Logged Data
- Title(参考訳): ログデータを用いた半教師付きバッチ学習
- Authors: Gholamali Aminian, Armin Behnamnia, Roberto Vega, Laura Toni,
Chengchun Shi, Hamid R. Rabiee, Omar Rivasplata, Miguel R. D. Rodrigues
- Abstract要約: 我々は,リスク最小化フレームワークを構築し,妥当性スコアへのアクセスも想定している。
本稿では,一部のサンプルにフィードバックが欠落している問題に対する学習手法を提案する。
- 参考スコア(独自算出の注目度): 24.826544828460158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning methods are intended to learn a policy from logged data,
which includes context, action, and feedback (cost or reward) for each sample
point. In this work, we build on the counterfactual risk minimization
framework, which also assumes access to propensity scores. We propose learning
methods for problems where feedback is missing for some samples, so there are
samples with feedback and samples missing-feedback in the logged data. We refer
to this type of learning as semi-supervised batch learning from logged data,
which arises in a wide range of application domains. We derive a novel upper
bound for the true risk under the inverse propensity score estimator to address
this kind of learning problem. Using this bound, we propose a regularized
semi-supervised batch learning method with logged data where the regularization
term is feedback-independent and, as a result, can be evaluated using the
logged missing-feedback data. Consequently, even though feedback is only
present for some samples, a learning policy can be learned by leveraging the
missing-feedback samples. The results of experiments derived from benchmark
datasets indicate that these algorithms achieve policies with better
performance in comparison with logging policies.
- Abstract(参考訳): オフポリシー学習法は、各サンプルポイントのコンテキスト、アクション、フィードバック(コストまたは報酬)を含むログデータからポリシーを学ぶことを意図している。
本研究は, リスク最小化フレームワークの構築であり, また, 妥当性スコアへのアクセスも想定している。
本稿では,いくつかのサンプルに対してフィードバックが欠落している問題に対する学習方法を提案する。
我々は、このタイプの学習を、ログデータから半教師付きバッチ学習と呼び、広範囲のアプリケーションドメインで発生する。
このような学習問題に対処するために、逆確率スコア推定器の下で真リスクの新たな上限を導出する。
このバウンダリを用いて、正規化項がフィードバックに依存しないログデータを用いた半教師付きバッチ学習手法を提案し、その結果、ログ化された不足フィードバックデータを用いて評価できる。
その結果、フィードバックは一部のサンプルにのみ存在するが、不足したフィードバックサンプルを活用することで学習ポリシーを学ぶことができる。
ベンチマークデータセットから得られた実験の結果は、これらのアルゴリズムがロギングポリシーよりも優れたパフォーマンスでポリシーを達成することを示している。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF [10.43364672415871]
実際には、人間のフィードバックからの好みの学習は、隠れたコンテキストを持つ不完全なデータに依存する。
本研究では、人間のフィードバックからの強化学習を含む嗜好学習の標準的な応用が、隠れた文脈の上に暗黙的に集約されていることを示す。
隠れコンテキストをよりよく考慮するために,分布選好学習(DPL)と呼ばれる手法のクラスを導入する。
論文 参考訳(メタデータ) (2023-12-13T18:51:34Z) - On-Policy Policy Gradient Reinforcement Learning Without On-Policy Sampling [3.5253513747455303]
そこで本稿では,オンラインポリシー勾配アルゴリズムのデータ効率向上のための適応型オフポリシーサンプリング手法を提案する。
我々の手法であるPROPS(Proximal Robust On-Policy Smpling)は,データ収集によるサンプリング誤差を低減する。
論文 参考訳(メタデータ) (2023-11-14T16:37:28Z) - Solving Inverse Problems with Score-Based Generative Priors learned from
Noisy Data [1.7969777786551424]
SURE-Scoreは、加法ガウス雑音で劣化したトレーニングサンプルを用いてスコアベースの生成モデルを学習するためのアプローチである。
2つの実践的応用において,SURE-Scoreの事前学習と逆問題に対する後続サンプリングの適用による一般化を実証する。
論文 参考訳(メタデータ) (2023-05-02T02:51:01Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Unsupervised Few-shot Learning via Deep Laplacian Eigenmaps [13.6555672824229]
深層ラプラシア固有写像を用いた教師なし数ショット学習法を提案する。
本手法は,類似したサンプルをグループ化することで,ラベルのないデータから表現を学習する。
我々は、教師なし学習において、ラプラシアン固有写像が崩壊した表現をいかに避けるかを解析的に示す。
論文 参考訳(メタデータ) (2022-10-07T14:53:03Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Variance-Optimal Augmentation Logging for Counterfactual Evaluation in
Contextual Bandits [25.153656462604268]
オフラインのA/Bテストと反ファクトラーニングの手法は、検索システムやレコメンデーションシステムに急速に採用されている。
これらの手法で一般的に使用される対物推定器は、ログポリシが評価対象のポリシーと大きく異なる場合、大きなバイアスと大きなばらつきを持つ可能性がある。
本稿では,下流評価や学習問題の分散を最小限に抑えるロギングポリシーを構築するための,MVAL(Minimum Variance Augmentation Logging)を提案する。
論文 参考訳(メタデータ) (2022-02-03T17:37:11Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Proposal Learning for Semi-Supervised Object Detection [76.83284279733722]
地上の真理ラベルが利用できないため、ラベルのないデータで物体検出器を訓練するのは簡単ではない。
ラベル付きデータとラベルなしデータの両方から提案特徴と予測を学習するための提案学習手法を提案する。
論文 参考訳(メタデータ) (2020-01-15T00:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。