論文の概要: Recursive Experts: An Efficient Optimal Mixture of Learning Systems in
Dynamic Environments
- arxiv url: http://arxiv.org/abs/2009.09249v1
- Date: Sat, 19 Sep 2020 15:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:02:04.150820
- Title: Recursive Experts: An Efficient Optimal Mixture of Learning Systems in
Dynamic Environments
- Title(参考訳): 再帰的エキスパート:動的環境における学習システムの効率的な最適混合
- Authors: Kaan Gokcesu, Hakan Gokcesu
- Abstract要約: 逐次学習システムは、意思決定から最適化まで、幅広い問題で使われている。
目的は、自然のフィードバック(状態)に固有の時間的関係を利用して目標に達することである。
本稿では,一般的な逐次学習システムのための最適混合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential learning systems are used in a wide variety of problems from
decision making to optimization, where they provide a 'belief' (opinion) to
nature, and then update this belief based on the feedback (result) to minimize
(or maximize) some cost or loss (conversely, utility or gain). The goal is to
reach an objective by exploiting the temporal relation inherent to the nature's
feedback (state). By exploiting this relation, specific learning systems can be
designed that perform asymptotically optimal for various applications. However,
if the framework of the problem is not stationary, i.e., the nature's state
sometimes changes arbitrarily, the past cumulative belief revision done by the
system may become useless and the system may fail if it lacks adaptivity. While
this adaptivity can be directly implemented in specific cases (e.g., convex
optimization), it is mostly not straightforward for general learning tasks. To
this end, we propose an efficient optimal mixture framework for general
sequential learning systems, which we call the recursive experts for dynamic
environments. For this purpose, we design hyper-experts that incorporate the
learning systems at our disposal and recursively merge in a specific way to
achieve minimax optimal regret bounds up to constant factors. The
multiplicative increases in computational complexity from the initial system to
our adaptive system are only logarithmic-in-time factors.
- Abstract(参考訳): シークエンシャルラーニングシステムは、意思決定から最適化まで、さまざまな問題で使用され、そこでは、自然に対する「信条」(意見)を提供し、フィードバックに基づいてこの信念を更新して、コストや損失を最小化(あるいは最大化)する(逆に、ユーティリティや利益)。
目的は、自然のフィードバック(状態)に固有の時間的関係を利用して目標に達することである。
この関係を利用して、様々なアプリケーションに漸近的に最適な特定の学習システムを設計することができる。
しかし、問題の枠組みが定常でない場合、すなわち自然の状態が時々任意に変化する場合、システムによってなされた過去の累積的信念の修正は役に立たず、適応性に欠けるとシステムが失敗する可能性がある。
この適応性は特定のケース(例えば凸最適化)で直接実装できるが、一般的な学習タスクでは単純ではない。
そこで本研究では,動的環境に対する再帰的エキスパート(recursive experts)と呼ぶ,一般的な逐次学習システムのための効率的な混合フレームワークを提案する。
この目的のために、我々は学習システムを自由に組み込んだハイパーエキスパートを設計し、特定の方法で再帰的にマージすることで、最小の最適後悔を一定要因まで達成する。
初期システムから適応システムへの計算複雑性の乗算的増加は、対数時間要素のみである。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Oracle-Efficient Smoothed Online Learning for Piecewise Continuous Decision Making [73.48977854003697]
この研究は、複雑性という新しい概念、一般化ブラケット数を導入し、空間の大きさに対する敵の制約を結婚させる。
次に、オンライン予測や断片的連続関数の計画など、関心のあるいくつかの問題で境界をインスタンス化する。
論文 参考訳(メタデータ) (2023-02-10T18:45:52Z) - Unsupervised Learning for Combinatorial Optimization with Principled
Objective Relaxation [19.582494782591386]
本研究は,最適化(CO)問題に対する教師なし学習フレームワークを提案する。
我々の重要な貢献は、緩和された目的がエントリーワイドな凹凸を満たすならば、低い最適化損失は最終積分解の品質を保証するという観察である。
特に、この観察は、対象が明示的に与えられていないアプリケーションにおいて、事前にモデル化される必要がある場合に、対象モデルの設計を導くことができる。
論文 参考訳(メタデータ) (2022-07-13T06:44:17Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Efficient time stepping for numerical integration using reinforcement
learning [0.15393457051344295]
機械学習とメタラーニングに基づくデータ駆動型タイムステッピング方式を提案する。
まず、1つまたは複数の基礎学習者(非滑らかまたはハイブリッドシステムの場合)はRLを使用して訓練されます。
次に、メタ学習者は(システムの状態に応じて)現在の状況に最適と思われる基礎学習者を選択する訓練を受ける。
論文 参考訳(メタデータ) (2021-04-08T07:24:54Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。