Fugu-MT 論文翻訳(概要): Proximal Bellman mappings for reinforcement learning and their application to robust adaptive filtering

論文の概要: Proximal Bellman mappings for reinforcement learning and their application to robust adaptive filtering

arxiv url: http://arxiv.org/abs/2309.07548v1
Date: Thu, 14 Sep 2023 09:20:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 15:39:33.860701
Title: Proximal Bellman mappings for reinforcement learning and their application to robust adaptive filtering
Title（参考訳）: 強化学習のための近位ベルマン写像とそのロバスト適応フィルタリングへの応用
Authors: Yuki Akiyama and Konstantinos Slavakis
Abstract要約: 本稿ではベルマン写像の新しいクラスを紹介する。写像は、カーネルヒルベルト空間の再現で定義される。提案した写像のクラスに近似的なポリシイテレーションスキームを構築した。
参考スコア（独自算出の注目度）: 4.140907550856865
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper aims at the algorithmic/theoretical core of reinforcement learning (RL) by introducing the novel class of proximal Bellman mappings. These mappings are defined in reproducing kernel Hilbert spaces (RKHSs), to benefit from the rich approximation properties and inner product of RKHSs, they are shown to belong to the powerful Hilbertian family of (firmly) nonexpansive mappings, regardless of the values of their discount factors, and possess ample degrees of design freedom to even reproduce attributes of the classical Bellman mappings and to pave the way for novel RL designs. An approximate policy-iteration scheme is built on the proposed class of mappings to solve the problem of selecting online, at every time instance, the "optimal" exponent $p$ in a $p$-norm loss to combat outliers in linear adaptive filtering, without training data and any knowledge on the statistical properties of the outliers. Numerical tests on synthetic data showcase the superior performance of the proposed framework over several non-RL and kernel-based RL schemes.
Abstract（参考訳）: 本稿では,強化学習(RL)のアルゴリズム的・理論的コアを,近位ベルマン写像の新たなクラスを導入して論じる。これらの写像は、カーネル・ヒルベルト空間 (RKHSs) の再現において定義され、RKHSs のリッチな近似特性と内積の恩恵を受けるために、これらの写像は、割引係数の値によらず、(確実に)非拡大写像のヒルベルト族に属することが示され、古典的なベルマン写像の属性を再現し、新しいRL設計の道を開くために十分な設計自由度を持つ。オンライン選択の問題を解決するために提案された写像のクラス上に近似的なポリシーイテレーションスキームを構築し, 任意の場合において, 最適」指数の$p$を線形適応フィルタリングにおける外れ値と闘うための$p$-norm損失を, トレーニングデータや外れ値の統計的特性に関する知識なしで解決する。合成データの数値実験は、いくつかの非rlおよびカーネルベースのrlスキームよりも優れた性能を示す。

関連論文リスト

BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。しかし、これは現実世界の長い尾のデータ分布には適用できない。本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文参考訳（メタデータ） (2025-06-29T15:12:50Z)
Thompson Sampling in Online RLHF with General Function Approximation [30.209211416606514]
本稿では,人間フィードバック(RLHF)アルゴリズムによる強化学習の統計的効率を理論的観点から検討する。我々はトンプソンサンプリングにインスパイアされたオンラインRLHFのためのモデルフリー後部サンプリングアルゴリズムを設計し、その理論的保証を提供する。
論文参考訳（メタデータ） (2025-05-29T18:22:02Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文参考訳（メタデータ） (2025-02-11T11:11:05Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Nonparametric Bellman Mappings for Reinforcement Learning: Application to Robust Adaptive Filtering [3.730504020733928]
本稿では、強化学習(RL)のための再生カーネルヒルベルト空間(RKHS)における新しい非パラメトリックベルマン写像を設計する。提案したマッピングは、RKHSのリッチな近似特性の恩恵を受け、非パラメトリックな性質のためデータの統計に仮定を適用せず、トレーニングデータなしで運用することができる。応用として, 適応フィルタリングにおける外れ値の対応問題に対する新しい解決策を提供するために, 提案した写像を用いる。
論文参考訳（メタデータ） (2024-03-29T07:15:30Z)
A Neuromorphic Architecture for Reinforcement Learning from Real-Valued Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-07-06T12:33:34Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant Fuel Optimization [0.0]
この研究は、深いRLを用いてロードパターンの問題を解決するための第一種アプローチを示し、任意のエンジニアリング設計最適化に利用することができる。
論文参考訳（メタデータ） (2023-05-09T23:51:24Z)
Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文参考訳（メタデータ） (2023-04-03T17:59:58Z)
online and lightweight kernel-based approximated policy iteration for dynamic p-norm linear adaptive filtering [8.319127681936815]
本稿では, 線形適応フィルタリングにおいて, 最適p-ノルムを動的(オンライン)に選択する問題の解を提案する。提案するフレームワークはカーネルベース強化学習(KBRL)に基づいている。
論文参考訳（メタデータ） (2022-10-21T06:29:01Z)
Dynamic selection of p-norm in linear adaptive filtering via online kernel-based reinforcement learning [8.319127681936815]
本研究は, 線形適応フィルタリングにおいて, 最適p-ノルムが外れ値と競合する問題に対して, 動的に選択する問題に対処する。オンラインおよびデータ駆動型フレームワークはカーネルベース強化学習(KBRL)によって設計される
論文参考訳（メタデータ） (2022-10-20T14:49:39Z)
Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。 SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文参考訳（メタデータ） (2021-12-28T15:51:07Z)
B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。 B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文参考訳（メタデータ） (2021-11-04T17:32:06Z)
Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文参考訳（メタデータ） (2020-01-20T02:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。