論文の概要: Composite Reward Design in PPO-Driven Adaptive Filtering
- arxiv url: http://arxiv.org/abs/2506.06323v1
- Date: Thu, 29 May 2025 23:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 03:13:19.05868
- Title: Composite Reward Design in PPO-Driven Adaptive Filtering
- Title(参考訳): PPO駆動型適応フィルタにおけるコンポジットリワード設計
- Authors: Abdullah Burkan Bereketoglu,
- Abstract要約: 本稿では、SNRの改善、MSEの低減、残留滑らかさのバランスをとる複合報酬によって導かれるPPOを用いた適応フィルタリングフレームワークを提案する。
各種ノイズ型合成信号の実験により,PPOエージェントはトレーニング分布を超越し,実時間性能を実現し,従来のフィルタよりも優れることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model-free and reinforcement learning-based adaptive filtering methods are gaining traction for denoising in dynamic, non-stationary environments such as wireless signal channels. Traditional filters like LMS, RLS, Wiener, and Kalman are limited by assumptions of stationary or requiring complex fine-tuning or exact noise statistics or fixed models. This letter proposes an adaptive filtering framework using Proximal Policy Optimization (PPO), guided by a composite reward that balances SNR improvement, MSE reduction, and residual smoothness. Experiments on synthetic signals with various noise types show that our PPO agent generalizes beyond its training distribution, achieving real-time performance and outperforming classical filters. This work demonstrates the viability of policy-gradient reinforcement learning for robust, low-latency adaptive signal filtering.
- Abstract(参考訳): モデルフリーおよび強化学習に基づく適応フィルタリング手法は,無線信号チャネルなどの動的非定常環境において,ノイズの除去の原動力となっている。
LMS, RLS, Wiener, Kalmanといった従来のフィルタは、定常的な仮定や複雑な微調整や正確なノイズ統計や固定モデルによって制限される。
本稿では、SNRの改善、MSEの低減、残留滑らかさのバランスをとる複合報酬によって導かれるPPOを用いた適応フィルタリングフレームワークを提案する。
各種ノイズ型合成信号の実験により,PPOエージェントはトレーニング分布を超越し,実時間性能を実現し,従来のフィルタよりも優れることがわかった。
本研究は、ロバストで低遅延適応信号フィルタリングのためのポリシー勾配強化学習の実現可能性を示す。
関連論文リスト
- On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。
本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。
対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文 参考訳(メタデータ) (2025-05-30T15:30:43Z) - A Unified Bayesian Perspective for Conventional and Robust Adaptive Filters [15.640261000544077]
本稿では適応フィルタの起源と解釈について述べる。
統一された枠組みでは、観測ノイズの確率モデルに依存する多くの適応フィルタの導出が可能である。
数値的な例は特性を説明するために示され、導出された適応フィルタの性能についてより深い洞察を与える。
論文 参考訳(メタデータ) (2025-02-25T16:20:10Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Poisson Conjugate Prior for PHD Filtering based Track-Before-Detect
Strategies in Radar Systems [9.04251355210029]
本稿では,低信号対雑音比(SNR)シナリオに対するTBD-PHDフィルタの原理的閉形式解を提案する。
また、レーダ系に対して、動的および振幅エコーモデルの連続モンテカルロ実装を提案する。
論文 参考訳(メタデータ) (2023-02-22T13:03:31Z) - Parallel APSM for Fast and Adaptive Digital SIC in Full-Duplex
Transceivers with Nonlinearity [19.534700035048637]
カーネルベースの適応フィルタは、フル(FD)モードのトランシーバにおけるデジタルデジタルドメイン自己干渉キャンセル(SIC)に適用される。
彼らは、カーネルベースのアルゴリズムがリッチで非線形な関数空間内で並列計算ベースの実装を実現しつつ、良好なレベルのデジタルSICを実現することを実証した。
論文 参考訳(メタデータ) (2022-07-12T11:17:22Z) - Neural Network-augmented Kalman Filtering for Robust Online Speech
Dereverberation in Noisy Reverberant Environments [13.49645012479288]
ノイズローバストオンラインデバーベレーションのためのニューラルネットワーク拡張アルゴリズムを提案する。
提示されたフレームワークは、単一チャネルのノイズの多い残響データセット上で堅牢なデバーベレーションを可能にする。
論文 参考訳(メタデータ) (2022-04-06T11:38:04Z) - Filter-enhanced MLP is All You Need for Sequential Recommendation [89.0974365344997]
オンラインプラットフォームでは、ログされたユーザの行動データはノイズを含まないことは避けられない。
周波数領域の雑音を減衰させる信号処理から,フィルタアルゴリズムのアイデアを借用する。
逐次レコメンデーションタスクのための学習可能なフィルタを備えたオールMLPモデルである textbfFMLP-Rec を提案する。
論文 参考訳(メタデータ) (2022-02-28T05:49:35Z) - Adaptive Low-Pass Filtering using Sliding Window Gaussian Processes [71.23286211775084]
ガウス過程回帰に基づく適応型低域通過フィルタを提案する。
本研究では,提案手法の誤差が一様境界であることを示す。
論文 参考訳(メタデータ) (2021-11-05T17:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。