論文の概要: Blind Exploration and Exploitation of Stochastic Experts
- arxiv url: http://arxiv.org/abs/2104.01078v1
- Date: Fri, 2 Apr 2021 15:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 16:33:24.464632
- Title: Blind Exploration and Exploitation of Stochastic Experts
- Title(参考訳): 確率的専門家の盲点探索と爆発
- Authors: Noyan C. Sevuktekin and Andrew C. Singer
- Abstract要約: 我々は,後方サンプリング,高信頼境界,経験的Kulback-Leibler分散,およびマルチアームバンディット問題に対するminmax法を用いて,最も信頼性の高い専門家を特定するためのブラインド探索・エクスプロイト(BEE)アルゴリズムを提案する。
本稿では,他の専門家の意見のみを瞬時に活用できる,経験的に実現可能な専門家能力尺度を提案する。
- 参考スコア(独自算出の注目度): 7.106986689736826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present blind exploration and exploitation (BEE) algorithms for
identifying the most reliable stochastic expert based on formulations that
employ posterior sampling, upper-confidence bounds, empirical Kullback-Leibler
divergence, and minmax methods for the stochastic multi-armed bandit problem.
Joint sampling and consultation of experts whose opinions depend on the hidden
and random state of the world becomes challenging in the unsupervised, or
blind, framework as feedback from the true state is not available. We propose
an empirically realizable measure of expert competence that can be inferred
instantaneously using only the opinions of other experts. This measure
preserves the ordering of true competences and thus enables joint sampling and
consultation of stochastic experts based on their opinions on dynamically
changing tasks. Statistics derived from the proposed measure is instantaneously
available allowing both blind exploration-exploitation and unsupervised opinion
aggregation. We discuss how the lack of supervision affects the asymptotic
regret of BEE architectures that rely on UCB1, KL-UCB, MOSS, IMED, and Thompson
sampling. We demonstrate the performance of different BEE algorithms
empirically and compare them to their standard, or supervised, counterparts.
- Abstract(参考訳): 本稿では,後方サンプリング,高信頼境界,経験的Kullback-Leibler発散,および確率的マルチアームバンディット問題に対するminmax法を用いて,最も信頼性の高い確率的専門家を特定するためのブラインド探索・エクスプロイト(BEE)アルゴリズムを提案する。
世界の隠れた無作為な状態に依存する意見を持つ専門家による共同サンプリングと相談は、真の状態からのフィードバックが得られないため、教師なし、または盲目のフレームワークでは困難になる。
本稿では,他の専門家の意見のみを用いて瞬時に推測できる,経験的に実現可能な専門家能力尺度を提案する。
この尺度は、真の能力の秩序を保ち、動的に変化するタスクに対する彼らの意見に基づいて、確率的専門家の共同サンプリングと相談を可能にする。
提案手法から得られた統計は、目視探索・探索と教師なしの意見集計の両方を瞬時に利用できる。
UCB1、KL-UCB、MOSS、IMED、トンプソンサンプリングに依存するBEEアーキテクチャの漸近的後悔に、監督の欠如がどのように影響するかについて議論する。
我々は、異なるBEEアルゴリズムの性能を実証的に実証し、それらを彼らの標準、または教師付きアルゴリズムと比較する。
関連論文リスト
- A Bayesian Solution To The Imitation Gap [34.16107600758348]
エージェントは報酬信号が特定できない環境で行動することを学ぶ必要がある。
場合によっては、専門家とエージェントの観察可能性の違いは、模倣のギャップを生じさせる可能性がある。
論文 参考訳(メタデータ) (2024-06-29T17:13:37Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Learning to Defer to Multiple Experts: Consistent Surrogate Losses,
Confidence Calibration, and Conformal Ensembles [0.966840768820136]
本研究は,L2D(L2D)を複数の専門家に委譲する学習の統計的特性について考察する。
我々は、一貫したサロゲート損失、信頼性校正、および専門家の原則的なアンサンブルを導出するオープンな問題に対処する。
論文 参考訳(メタデータ) (2022-10-30T21:27:29Z) - Deconfounding Legal Judgment Prediction for European Court of Human
Rights Cases Towards Better Alignment with Experts [1.252149409594807]
この研究は、専門家による調整を伴わない法的な判断予測システムは、浅い表面信号に対して脆弱であることを示す。
これを緩和するために、私たちは統計的に予測されるが法的に無関係な情報を戦略的に識別するために、ドメインの専門知識を使用します。
論文 参考訳(メタデータ) (2022-10-25T08:37:25Z) - Trustworthy Long-Tailed Classification [41.45744960383575]
本稿では,分類と不確実性評価を共同で行うために,Trustworthy Long-tailed Classification (TLC)法を提案する。
我々のTLCは、各専門家のエビデンスに基づく不確実性(EvU)とエビデンスを取得し、デプスター・シェーファー・エビデンス理論(DST)の下でこれらの不確実性とエビデンスを組み合わせる。
実験の結果,提案したTLCは最先端の手法よりも優れており,信頼性の高い不確実性に優れていた。
論文 参考訳(メタデータ) (2021-11-17T10:52:36Z) - Are You Smarter Than a Random Expert? The Robust Aggregation of
Substitutable Signals [14.03122229316614]
本稿では,幅広い情報構造から専門家の知識を逆選択する文脈において,予測集約の研究を開始する。
投射的代替条件の下では、専門家の予測の平均値を取得することは、ランダムな専門家を信頼する戦略によって大幅に改善される。
本研究では, 専門家の予測を平均化し, 一定の要因によって前者から遠ざかることで平均を極端に推し進めることにより, 集積器の性能保証は, 事前の知識がなくても実現可能であることを示す。
論文 参考訳(メタデータ) (2021-11-04T20:50:30Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Prediction with Corrupted Expert Advice [67.67399390910381]
ステップサイズを減らした古典的乗法重みアルゴリズムの変種が、良質な環境において絶え間なく後悔することを証明する。
我々の結果は、しばしば同等のFollow the Regularized Leader(FTRL)とOnline Mirror Descent(OMD)フレームワークの驚くべき相違を明らかにします。
論文 参考訳(メタデータ) (2020-02-24T14:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。