論文の概要: Semantic-Aware Remote Estimation of Multiple Markov Sources Under Constraints
- arxiv url: http://arxiv.org/abs/2403.16855v1
- Date: Mon, 25 Mar 2024 15:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:44:21.785742
- Title: Semantic-Aware Remote Estimation of Multiple Markov Sources Under Constraints
- Title(参考訳): 制約条件下での複数のマルコフ源のセマンティック・アウェアリモート推定
- Authors: Jiping Luo, Nikolaos Pappas,
- Abstract要約: 我々は,マルコフ音源の遠隔推定のための意味認識通信について,損失・速度制約のあるチャネル上で検討した。
送信周波数制約下での予測誤差の長期的状態依存コストを最小限に抑える最適スケジューリングポリシーを見いだす。
- 参考スコア(独自算出の注目度): 9.514904359788156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies semantic-aware communication for remote estimation of multiple Markov sources over a lossy and rate-constrained channel. Unlike most existing studies that treat all source states equally, we exploit the semantics of information and consider that the remote actuator has different tolerances for the estimation errors of different states. We aim to find an optimal scheduling policy that minimizes the long-term state-dependent costs of estimation errors under a transmission frequency constraint. We theoretically show the structure of the optimal policy by leveraging the average-cost Constrained Markov Decision Process (CMDP) theory and the Lagrangian dynamic programming. By exploiting the optimal structural results, we develop a novel policy search algorithm, termed intersection search plus relative value iteration (Insec-RVI), that can find the optimal policy using only a few iterations. To avoid the ``curse of dimensionality'' of MDPs, we propose an online low-complexity drift-plus-penalty (DPP) scheduling algorithm based on the Lyapunov optimization theorem. We also design an efficient average-cost Q-learning algorithm to estimate the optimal policy without knowing a priori the channel and source statistics. Numerical results show that continuous transmission is inefficient, and remarkably, our semantic-aware policies can attain the optimum by strategically utilizing fewer transmissions by exploiting the timing of the important information.
- Abstract(参考訳): 本稿では,複数のマルコフ源の損失・速度制約チャネル上でのリモート推定のためのセマンティック・アウェア通信について検討する。
すべてのソース状態を等しく扱う既存の研究とは異なり、情報のセマンティクスを利用して、リモートアクチュエータは異なる状態の推定誤差に対して異なる許容値を持つと考えている。
本研究では,送信周波数制約下での予測誤差の長期的状態依存コストを最小限に抑えるための最適スケジューリングポリシーを提案する。
平均コスト制約マルコフ決定過程(CMDP)理論とラグランジアン動的計画法を利用して最適政策の構造を理論的に示す。
最適な構造的結果を活用することで,交差探索と相対値反復 (Insec-RVI) と呼ばれる新しいポリシー探索アルゴリズムを開発し,数回の反復で最適ポリシーを見つけることができる。
MDPの ‘curse of dimensionality' を回避するために,Lyapunov 最適化定理に基づくオンライン低複雑さドリフトプラスペナルティ (DPP) スケジューリングアルゴリズムを提案する。
また、チャネルやソース統計の優先順位を知らずに最適なポリシーを推定するために、効率的な平均コストQ-ラーニングアルゴリズムを設計する。
数値的な結果から, 連続送信は効率が悪く, 重要情報のタイミングを生かして, 少ない送信を戦略的に活用することで, セマンティック・アウェア・ポリシーが最適に達成できることが示唆された。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints [36.16736392624796]
平均基準付き制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。
我々は,平均CMDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いた。
ACMDPに適応した他の最先端アルゴリズムと比較して,実験性能が優れていることを示す。
論文 参考訳(メタデータ) (2023-02-02T00:23:36Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - DESTRESS: Computation-Optimal and Communication-Efficient Decentralized
Nonconvex Finite-Sum Optimization [43.31016937305845]
インターネット・オブ・シング、ネットワークセンシング、自律システム、有限サム最適化のための分散アルゴリズムのためのフェデレーション学習。
非有限サム最適化のためのDecentralized STochastic Recursive MethodDESTRESSを開発した。
詳細な理論的および数値的な比較は、DESTRESSが事前の分散アルゴリズムにより改善されていることを示している。
論文 参考訳(メタデータ) (2021-10-04T03:17:41Z) - Distributed Learning and Democratic Embeddings: Polynomial-Time Source
Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient
Descent under Communication Constraints [46.17631511884969]
我々は、n次元ユークリッド空間においてベクトルを圧縮する問題を考える。
数値化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味では、民主主義的および民主的に近いソースコーディングスキームが(ほぼ)最適であることを示す。
分散最適化アルゴリズムDGD-DEFを提案する。このアルゴリズムは,提案した符号化戦略を用いて,(ほぼ)定数要素内における最小収束率を実現する。
論文 参考訳(メタデータ) (2021-03-13T00:04:11Z) - Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文 参考訳(メタデータ) (2021-02-23T15:01:36Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。