論文の概要: Learning and Information in Stochastic Networks and Queues
- arxiv url: http://arxiv.org/abs/2105.08769v1
- Date: Tue, 18 May 2021 18:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:45:58.720362
- Title: Learning and Information in Stochastic Networks and Queues
- Title(参考訳): 確率ネットワークとキューにおける学習と情報
- Authors: Neil Walton, Kuang Xu
- Abstract要約: 待ち行列システムの安定性と最適化における情報と学習の役割を概観する。
近年,待ち行列システムに教師あり学習,包括学習,強化学習の技法が応用されている。
- 参考スコア(独自算出の注目度): 5.254093731341154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We review the role of information and learning in the stability and
optimization of queueing systems. In recent years, techniques from supervised
learning, bandit learning and reinforcement learning have been applied to
queueing systems supported by increasing role of information in decision
making. We present observations and new results that help rationalize the
application of these areas to queueing systems.
We prove that the MaxWeight and BackPressure policies are an application of
Blackwell's Approachability Theorem. This connects queueing theoretic results
with adversarial learning. We then discuss the requirements of statistical
learning for service parameter estimation. As an example, we show how queue
size regret can be bounded when applying a perceptron algorithm to classify
service. Next, we discuss the role of state information in improved decision
making. Here we contrast the roles of epistemic information (information on
uncertain parameters) and aleatoric information (information on an uncertain
state). Finally we review recent advances in the theory of reinforcement
learning and queueing, as well as, provide discussion on current research
challenges.
- Abstract(参考訳): 待ち行列システムの安定性と最適化における情報と学習の役割を概観する。
近年,意思決定における情報の役割の増大に支えられた待ち行列システムに,教師あり学習,盗賊学習,強化学習の技法が応用されている。
待ち行列システムへのこれらの領域の適用を合理化するための観測結果と新たな結果を提案する。
我々は、MaxWeight と BackPressure ポリシーが Blackwell の Approachability Theorem の応用であることを証明する。
これは待ち行列理論の結果と逆学習を結びつける。
次に,サービスパラメータ推定のための統計的学習の要件について論じる。
例として、サービス分類にパーセプトロンアルゴリズムを適用する場合、キューサイズの後悔がいかに制限されるかを示す。
次に,意思決定における状態情報の役割について述べる。
ここでは, てんかん情報(不確定なパラメータの情報)と失語症情報(不確定な状態の情報)の役割を対比する。
最後に,強化学習と待ち行列理論の最近の進歩を概観し,現在の研究課題について考察する。
関連論文リスト
- Quantifying the Cost of Learning in Queueing Systems [4.784875233446591]
待ち行列における学習コスト (CLQ) はパラメータの不確実性に起因する平均待ち行列長の最大増加を定量化する新しい指標である。
本稿では,Lyapunov と Bandit 分析をブリッジし,幅広いアルゴリズムの保証を提供するCLQ の統一解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-15T14:50:12Z) - To Compress or Not to Compress- Self-Supervised Learning and Information
Theory: A Review [30.87092042943743]
ディープニューラルネットワークは教師付き学習タスクに優れるが、広範なラベル付きデータの必要性によって制約される。
自己組織化学習は有望な代替手段として登場し、明確なラベルなしでモデルを学習できる。
情報理論、特に情報ボトルネックの原則は、ディープニューラルネットワークの形成において重要な役割を担っている。
論文 参考訳(メタデータ) (2023-04-19T00:33:59Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - New Insights on Reducing Abrupt Representation Change in Online
Continual Learning [69.05515249097208]
我々は、以前に観測されていないクラスが入ってくるデータストリームに現れるときに発生する観測データの表現の変化に焦点を当てる。
Experience Replayを適用すると、新たに追加されたクラスの表現が以前のクラスと大幅に重複することを示します。
本稿では,新しいクラスに対応するために,学習した表現を劇的な適応から保護することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T01:37:00Z) - Continual Auxiliary Task Learning [24.165583481949827]
補助課題の収集を学習するために設計された強化学習システムについて検討し,それらの補助的予測を改善するための行動政策学習を行う。
非定常的な報酬の下での追跡を容易にする後継機能に基づくアルゴリズムを開発し、学習後継機能への分離を証明し、報酬が収束率の向上をもたらす。
論文 参考訳(メタデータ) (2022-02-22T19:17:12Z) - Offline Reinforcement Learning for Mobile Notifications [1.965345368500676]
モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持において重要な役割を担っている。
通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルを中心に構築されている。
我々は、強化学習は、パフォーマンスとイテレーションのスピードの観点から、通知システムにとってより良いフレームワークであると主張する。
論文 参考訳(メタデータ) (2022-02-04T22:22:22Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Valid Explanations for Learning to Rank Models [5.320400771224103]
本稿では,入力特徴の少数のサブセットをランキング決定の理由として同定するモデルに依存しない局所的説明法を提案する。
我々は,選択された特徴の有無に基づいて,ランク付けに特化して説明の妥当性と完全性という新たな概念を導入する。
論文 参考訳(メタデータ) (2020-04-29T06:21:56Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。