論文の概要: Online Learning with Uncertain Feedback Graphs
- arxiv url: http://arxiv.org/abs/2106.08441v1
- Date: Tue, 15 Jun 2021 21:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 09:56:25.871535
- Title: Online Learning with Uncertain Feedback Graphs
- Title(参考訳): 不確かなフィードバックグラフを用いたオンライン学習
- Authors: Pouya M Ghari, Yanning Shen
- Abstract要約: 専門家間の関係をフィードバックグラフで把握し、学習者の意思決定を支援する。
実際には、名目上のフィードバックグラフはしばしば不確実性を伴うため、専門家間の実際の関係を明らかにすることは不可能である。
本研究は、潜在的な不確実性の諸事例を考察し、それらを扱うための新しいオンライン学習アルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 12.805267089186533
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Online learning with expert advice is widely used in various machine learning
tasks. It considers the problem where a learner chooses one from a set of
experts to take advice and make a decision. In many learning problems, experts
may be related, henceforth the learner can observe the losses associated with a
subset of experts that are related to the chosen one. In this context, the
relationship among experts can be captured by a feedback graph, which can be
used to assist the learner's decision making. However, in practice, the nominal
feedback graph often entails uncertainties, which renders it impossible to
reveal the actual relationship among experts. To cope with this challenge, the
present work studies various cases of potential uncertainties, and develops
novel online learning algorithms to deal with uncertainties while making use of
the uncertain feedback graph. The proposed algorithms are proved to enjoy
sublinear regret under mild conditions. Experiments on real datasets are
presented to demonstrate the effectiveness of the novel algorithms.
- Abstract(参考訳): 専門家のアドバイスによるオンライン学習は、さまざまな機械学習タスクで広く使われている。
学習者が専門家の集まりから1つを選び、アドバイスを受け、決定を下すという問題を考える。
多くの学習問題において、専門家は関連しているため、学習者は選択した専門家のサブセットに関連する損失を観察することができる。
この文脈では、専門家間の関係をフィードバックグラフで捉えることができ、これは学習者の意思決定を支援するのに使うことができる。
しかし、実際には、名目フィードバックグラフにはしばしば不確実性が伴うため、専門家間の実際の関係を明らかにすることは不可能である。
この課題に対処するため、本研究では、潜在的な不確実性の諸事例を調査し、不確実性に対処する新しいオンライン学習アルゴリズムを開発した。
提案アルゴリズムは, 穏やかな条件下でのサブ線形後悔を楽しむことが証明された。
提案アルゴリズムの有効性を示すために,実データセットの実験を行った。
関連論文リスト
- Learning More Generalized Experts by Merging Experts in Mixture-of-Experts [0.5221459608786241]
共有層をエキスパートの混合体に組み込むことで性能が低下する可能性があることを示す。
2つの最も頻度の高い専門家を合併し、最も頻度の低い専門家を専門家の組み合わせを使って更新します。
本アルゴリズムは,多領域タスクインクリメンタル学習に適用した場合に,伝達学習を強化し,破滅的な忘れを緩和する。
論文 参考訳(メタデータ) (2024-05-19T11:55:48Z) - Sequential Decision Making with Expert Demonstrations under Unobserved Heterogeneity [22.0059059325909]
本研究では,未観測の文脈情報に基づいて意思決定を行った専門家による補助的な実演を行い,オンライン上での逐次意思決定の課題について検討する。
この設定は、自動運転車、ヘルスケア、金融など、多くのアプリケーション領域で発生します。
本稿では,非パラメトリックな経験的ベイズ手法であるExpers-as-Priorsアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-10T18:00:17Z) - Causal Discovery with Language Models as Imperfect Experts [119.22928856942292]
専門知識を用いて因果グラフの同定を改善する方法について検討する。
整合性に基づく専門家の知識を改良するための戦略を提案する。
本稿では,不完全な専門家として大規模言語モデルを用いる実データを用いたケーススタディについて報告する。
論文 参考訳(メタデータ) (2023-07-05T16:01:38Z) - Leveraging Skill-to-Skill Supervision for Knowledge Tracing [13.753990664747265]
知識追跡は知的学習システムにおいて重要な役割を担っている。
知識追跡モデルの最近の進歩は、問題解決の歴史をよりうまく活用することを可能にしている。
知識を直接組み込む知識トレースアルゴリズムは、限られたデータやコールドスタートの設定において重要である。
論文 参考訳(メタデータ) (2023-06-12T03:23:22Z) - Bayesian Q-learning With Imperfect Expert Demonstrations [56.55609745121237]
そこで本研究では,Q-ラーニングを高速化するアルゴリズムを提案する。
我々は,スパース・リワード・チェーン環境と,より複雑な6つのアタリゲームに対して,報酬の遅れによるアプローチを評価した。
論文 参考訳(メタデータ) (2022-10-01T17:38:19Z) - Continuous Prediction with Experts' Advice [10.98975673892221]
専門家のアドバイスによる予測は、オンライン学習における最も基本的な問題の1つである。
近年の研究では、微分方程式のレンズと連続時間解析によるオンライン学習が研究されている。
論文 参考訳(メタデータ) (2022-06-01T05:09:20Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Decision Rule Elicitation for Domain Adaptation [93.02675868486932]
ヒトインザループ機械学習は、専門家からラベルを引き出すために人工知能(AI)で広く使用されています。
この作業では、専門家が意思決定を説明する決定ルールを作成できるようにします。
決定規則の適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。
論文 参考訳(メタデータ) (2021-02-23T08:07:22Z) - Consistent Estimators for Learning to Defer to an Expert [5.076419064097734]
我々は、意思決定を下流の専門家に延期するか、予測するか選択できる予測器の学習方法を示す。
様々な実験課題に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-06-02T18:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。