論文の概要: Combining Reward Information from Multiple Sources
- arxiv url: http://arxiv.org/abs/2103.12142v1
- Date: Mon, 22 Mar 2021 19:23:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:09:19.245429
- Title: Combining Reward Information from Multiple Sources
- Title(参考訳): 複数音源からの逆情報の組み合わせ
- Authors: Dmitrii Krasheninnikov, Rohin Shah, Herke van Hoof
- Abstract要約: 異なるソースから学んだ2つの相反する報酬関数で設定の問題を研究します。
マルチタスク逆リワード設計 (MIRD) という新しいアルゴリズムを提案し、それを単純なベースラインの範囲と比較する。
- 参考スコア(独自算出の注目度): 28.201364025385054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given two sources of evidence about a latent variable, one can combine the
information from both by multiplying the likelihoods of each piece of evidence.
However, when one or both of the observation models are misspecified, the
distributions will conflict. We study this problem in the setting with two
conflicting reward functions learned from different sources. In such a setting,
we would like to retreat to a broader distribution over reward functions, in
order to mitigate the effects of misspecification. We assume that an agent will
maximize expected reward given this distribution over reward functions, and
identify four desiderata for this setting. We propose a novel algorithm,
Multitask Inverse Reward Design (MIRD), and compare it to a range of simple
baselines. While all methods must trade off between conservatism and
informativeness, through a combination of theory and empirical results on a toy
environment, we find that MIRD and its variant MIRD-IF strike a good balance
between the two.
- Abstract(参考訳): 潜在変数に関する2つの証拠源が与えられると、それぞれの証拠の可能性を乗じることで、両方の情報から情報を組み合わせることができる。
しかし、観測モデルの一方または両方が不特定である場合、分布は矛盾する。
異なる情報源から学習した2つの相反する報酬関数を用いて,この問題を考察する。
このような状況下では、誤特定の影響を緩和するため、報奨機能に関する幅広い分布に後退させたいと思っています。
エージェントは、この報酬関数の分布から期待される報酬を最大化し、この設定のデシラタを4つ特定すると仮定する。
本稿では,新しいアルゴリズムであるMultitask Inverse Reward Design (MIRD)を提案する。
すべての方法が保守主義と情報主義の間を行き来しなければならないが、おもちゃの環境における理論と経験的な結果の組み合わせにより、MIRDとその変種MIRD-IFは両者のバランスが良いことが分かる。
関連論文リスト
- Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - R-divergence for Estimating Model-oriented Distribution Discrepancy [37.939239477868796]
モデル指向分布の相違性を評価するために設計されたR分割を導入する。
R-発散は混合データ上で最小の仮説を学習し、その間に経験的リスク差を測る。
教師なしタスクおよび教師なしタスクにおけるテストパワーの評価を行い、R分割が最先端のパフォーマンスを達成することを確認する。
論文 参考訳(メタデータ) (2023-10-02T11:30:49Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Algorithms for Adaptive Experiments that Trade-off Statistical Analysis
with Reward: Combining Uniform Random Assignment and Reward Maximization [50.725191156128645]
トンプソンサンプリングのようなマルチアームバンディットアルゴリズムは適応的な実験を行うのに利用できる。
統計的解析のための一様ランダム化の利点を組み合わせた2つのアルゴリズムを探索する2つのアーム実験のシミュレーションを提案する。
論文 参考訳(メタデータ) (2021-12-15T22:11:58Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Learning to Transfer with von Neumann Conditional Divergence [14.926485055255942]
我々は、複数の領域間の転送可能性を改善するために、最近提案されたフォン・ノイマン条件分岐を導入する。
本研究では,これらの課題が同時に,あるいは逐次的に観察されることを前提として,新たな学習目標を設計する。
どちらのシナリオでも、新しいタスクの一般化誤差が小さく、(シーケンシャルな設定で)ソースタスクを忘れないという点で、最先端のメソッドに対して好ましい性能が得られる。
論文 参考訳(メタデータ) (2021-08-07T22:18:23Z) - $(f,\Gamma)$-Divergences: Interpolating between $f$-Divergences and
Integral Probability Metrics [6.221019624345409]
我々は、$f$-divergences と積分確率メトリクス(IPMs)の両方を仮定する情報理論の分岐を構築するためのフレームワークを開発する。
2段階の質量再分配/物質輸送プロセスとして表現できることが示される。
統計的学習を例として,重み付き,絶対連続的なサンプル分布に対するGAN(generative adversarial network)の訓練において,その優位性を示す。
論文 参考訳(メタデータ) (2020-11-11T18:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。