論文の概要: Compressed Online Learning of Conditional Mean Embedding
- arxiv url: http://arxiv.org/abs/2405.07432v1
- Date: Mon, 13 May 2024 02:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-14 15:04:30.319655
- Title: Compressed Online Learning of Conditional Mean Embedding
- Title(参考訳): 条件付き平均埋め込みの圧縮オンライン学習
- Authors: Boya Hou, Sina Sanjari, Alec Koppel, Subhonmesh Bose,
- Abstract要約: 条件平均埋め込み (CME) は確率分布におけるマルコフ核の作用を符号化する。
演算子値勾配勾配を用いたデータからCMEを漸進的に学習するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 11.720101697635148
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The conditional mean embedding (CME) encodes Markovian stochastic kernels through their actions on probability distributions embedded within the reproducing kernel Hilbert spaces (RKHS). The CME plays a key role in several well-known machine learning tasks such as reinforcement learning, analysis of dynamical systems, etc. We present an algorithm to learn the CME incrementally from data via an operator-valued stochastic gradient descent. As is well-known, function learning in RKHS suffers from scalability challenges from large data. We utilize a compression mechanism to counter the scalability challenge. The core contribution of this paper is a finite-sample performance guarantee on the last iterate of the online compressed operator learning algorithm with fast-mixing Markovian samples, when the target CME may not be contained in the hypothesis space. We illustrate the efficacy of our algorithm by applying it to the analysis of an example dynamical system.
- Abstract(参考訳): 条件平均埋め込み (CME) はマルコフ確率核を、再生されたカーネルヒルベルト空間 (RKHS) 内に埋め込まれた確率分布の作用を通じて符号化する。
CMEは強化学習、動的システムの解析など、よく知られた機械学習タスクにおいて重要な役割を果たす。
演算子評価確率勾配勾配を用いたデータからCMEを漸進的に学習するアルゴリズムを提案する。
有名なように、RKHSの関数学習は、大規模データによるスケーラビリティの課題に悩まされている。
我々は圧縮機構を利用してスケーラビリティの課題に対処する。
本論文のコアコントリビューションは、ターゲットCMEが仮説空間に含まれない場合、高速混合マルコフサンプルを用いたオンライン圧縮演算子学習アルゴリズムの最終繰り返しにおける有限サンプル性能保証である。
実例力学系の解析に適用し,本アルゴリズムの有効性について述べる。
関連論文リスト
- Nonparametric Sparse Online Learning of the Koopman Operator [11.710740395697128]
クープマン作用素は、一般的な非線形力学系の力学を表現する強力なフレームワークを提供する。
クープマン作用素を学ぶためのデータ駆動手法は、選択された関数空間がシステム力学の下で閉じていると仮定するのが一般的である。
演算子近似アルゴリズムを用いて、演算子を反復的に学習し、表現の複雑さの制御を行う。
論文 参考訳(メタデータ) (2025-01-27T20:48:10Z) - Kernel Sum of Squares for Data Adapted Kernel Learning of Dynamical Systems from Data: A global optimization approach [0.19999259391104385]
本稿では,Kernel Sum of Squares (KSOS) 法の適用について検討する。
従来のカーネルベースの手法は、最適なベースカーネルの選択とパラメータチューニングにしばしば苦労する。
KSOSは、カーネルベースのサロゲート関数を持つグローバル最適化フレームワークを活用することで、これらの問題を緩和する。
論文 参考訳(メタデータ) (2024-08-12T19:32:28Z) - Multiplicative Dynamic Mode Decomposition [4.028503203417233]
有限次元近似においてクープマン作用素に固有の乗法構造を強制する乗法動的モード分解(MultDMD)を導入する。
MultDMDは有限次元近似に対する構造化されたアプローチを示し、クープマン作用素のスペクトル特性を正確に反映することができる。
我々は,MultDMDの理論的枠組みについて詳述し,その定式化,最適化戦略,収束特性について詳述する。
論文 参考訳(メタデータ) (2024-05-08T18:09:16Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Benchmarking Quantum Generative Learning: A Study on Scalability and Noise Resilience using QUARK [0.3624329910445628]
本稿では,量子生成学習アプリケーションのスケーラビリティと耐雑音性について検討する。
厳密なベンチマーク手法を用いて、進捗を追跡し、QMLアルゴリズムのスケーリングにおける課題を特定する。
その結果,QGANはQCBMほど次元の呪いの影響を受けず,QCBMはノイズに耐性があることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:05:55Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Learning Efficient Coding of Natural Images with Maximum Manifold
Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。
エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。
ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文 参考訳(メタデータ) (2023-03-06T17:26:30Z) - Auxiliary Functions as Koopman Observables: Data-Driven Analysis of
Dynamical Systems via Polynomial Optimization [0.0]
本稿では,明示的なモデル発見を必要としないフレキシブルなデータ駆動型システム解析手法を提案する。
この手法は、データからクープマン演算子を近似する確立した手法に根ざし、数値的に解ける半定プログラムとして実装される。
論文 参考訳(メタデータ) (2023-03-02T18:44:18Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Learning Dynamical Systems via Koopman Operator Regression in
Reproducing Kernel Hilbert Spaces [52.35063796758121]
動的システムの有限データ軌跡からクープマン作用素を学ぶためのフレームワークを定式化する。
リスクとクープマン作用素のスペクトル分解の推定を関連付ける。
以上の結果から,RRRは他の広く用いられている推定値よりも有益である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-27T14:57:48Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Compressed Predictive Information Coding [6.220929746808418]
我々は,動的データから有用な表現を抽出する新しい情報理論フレームワーク,Compressed Predictive Information Coding (CPIC) を開発した。
我々はCPIC損失の変動境界を導出し、最大予測可能な情報を取得するために潜時空間を誘導する。
我々はCPICが低信号対雑音比で雑音力学系の潜時空間を復元できることを実証した。
論文 参考訳(メタデータ) (2022-03-03T22:47:58Z) - KoopmanizingFlows: Diffeomorphically Learning Stable Koopman Operators [7.447933533434023]
本稿では,線形時間不変(LTI)モデルを構築するための新しいフレームワークを提案する。
事前に定義された関数のライブラリやスペクトルを知ることなく、クープマン作用素の特徴を学習する。
本稿では,LASA手書きデータセットにおける最先端手法と比較して,提案手法の優れた有効性を示す。
論文 参考訳(メタデータ) (2021-12-08T02:40:40Z) - Estimating Koopman operators for nonlinear dynamical systems: a
nonparametric approach [77.77696851397539]
Koopman演算子は非線形系の線形記述を可能にする数学的ツールである。
本稿では,その核となる部分を同一フレームワークのデュアルバージョンとして捉え,それらをカーネルフレームワークに組み込む。
カーネルメソッドとKoopman演算子との強力なリンクを確立し、Kernel関数を通じて後者を推定する。
論文 参考訳(メタデータ) (2021-03-25T11:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。