Fugu-MT 論文翻訳(概要): Semantic-Aware Remote Estimation of Multiple Markov Sources Under Constraints

論文の概要: Semantic-Aware Remote Estimation of Multiple Markov Sources Under Constraints

arxiv url: http://arxiv.org/abs/2403.16855v2
Date: Wed, 21 May 2025 07:29:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:56.609154
Title: Semantic-Aware Remote Estimation of Multiple Markov Sources Under Constraints
Title（参考訳）: 制約条件下での複数のマルコフ源のセマンティック・アウェアリモート推定
Authors: Jiping Luo, Nikolaos Pappas,
Abstract要約: 我々は,情報文のエフェスマンティクスを利用して,リモートアクチュエータが推定誤差に対して異なる耐性を有することを考察する。送信周波数制約下での予測誤差の長期的テキスト状態依存コストを最小限に抑える最適スケジューリングポリシーを見いだす。
参考スコア（独自算出の注目度）: 9.514904359788156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper studies the remote estimation of multiple Markov sources over a lossy and rate-constrained channel. Unlike most existing studies that treat all source states equally, we exploit the \emph{semantics of information} and consider that the remote actuator has different tolerances for the estimation errors. We aim to find an optimal scheduling policy that minimizes the long-term \textit{state-dependent} costs of estimation errors under a transmission frequency constraint. The optimal scheduling problem is formulated as a \emph{constrained Markov decision process} (CMDP). We show that the optimal Lagrangian cost follows a piece-wise linear and concave (PWLC) function, and the optimal policy is, at most, a randomized mixture of two simple deterministic policies. By exploiting the structural results, we develop a new \textit{intersection search} algorithm that finds the optimal policy using only a few iterations. We further propose a reinforcement learning (RL) algorithm to compute the optimal policy without knowing \textit{a priori} the channel and source statistics. To avoid the ``curse of dimensionality" in MDPs, we propose an online low-complexity \textit{drift-plus-penalty} (DPP) algorithm. Numerical results show that continuous transmission is inefficient, and remarkably, our semantic-aware policies can attain the optimum by strategically utilizing fewer transmissions by exploiting the timing of the important information.
Abstract（参考訳）: 本稿では,複数のマルコフ源の損失・速度制約チャネル上でのリモート推定について検討する。すべてのソース状態を等しく扱う既存の研究とは異なり、我々は「情報のemph{semantics of information}」を利用し、リモートアクチュエータは推定誤差に対して異なる耐性を持つと考えている。本稿では,送信周波数制約下での予測誤差の長期的‘textit{state-dependent} コストを最小限に抑えるための最適スケジューリングポリシーを提案する。最適スケジューリング問題は \emph{constrained Markov decision process} (CMDP) として定式化される。最適ラグランジアンコストはPWLC関数に従っており、最適ポリシは、少なくとも2つの単純な決定論的ポリシーのランダムな混合であることを示す。構造的結果を活用することで,数回だけ繰り返して最適ポリシーを求める新しい \textit{intersection search} アルゴリズムを開発した。さらに、チャネルとソース統計を知らなくても最適なポリシーを計算できる強化学習(RL)アルゴリズムを提案する。 MDPにおける「次元の帰結」を避けるために、オンラインの低複雑さ \textit{drift-plus-penalty} (DPP) アルゴリズムを提案する。数値的な結果から, 連続送信は効率が悪く, 重要情報のタイミングを生かして, 少ない送信を戦略的に活用することで, セマンティック・アウェア・ポリシーが最適に達成できることが示唆された。

関連論文リスト

Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2025-06-08T13:37:38Z)
Provably Efficient RL under Episode-Wise Safety in Constrained MDPs with Linear Function Approximation [24.299769025346368]
制約決定過程(CMDP)における強化学習問題について検討する。本稿では,リニアCMDPに対するRLアルゴリズムを提案する。その結果,近年の線形CMDPアルゴリズムでは,制約に違反するか,指数計算コストに悪影響を及ぼす結果が得られた。
論文参考訳（メタデータ） (2025-02-14T13:07:25Z)
Graph-attention-based Casual Discovery with Trust Region-navigated Clipping Policy Optimization [13.75709067982844]
因果発見のための信頼領域探索型クリッピングポリシー最適化手法を提案する。また、SDGATと呼ばれる改良されたグラフアテンションエンコーダを提案し、効率よく変数を符号化する。これらの改善により、提案手法は、合成データセットとベンチマークデータセットの両方において、以前のRL法よりも優れている。
論文参考訳（メタデータ） (2024-12-27T10:50:43Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Reinforcement Learning for Infinite-Horizon Average-Reward Linear MDPs via Approximation by Discounted-Reward MDPs [16.49229317664822]
線形決定過程(MDP)を用いた無限水平平均逆強化学習の問題点について検討する。提案手法は, 平均再帰設定を割引係数で近似し, 楽観的な値反復を適用した。
論文参考訳（メタデータ） (2024-05-23T20:58:33Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Anytime-Constrained Reinforcement Learning [6.981971551979697]
制約付きマルコフ決定過程(cMDP)を任意の制約で導入・研究する。累積コストを付加した最適決定主義的政策が存在することを示す。非自明な概略的ポリシーの計算は一般にNPハードであることが示される。
論文参考訳（メタデータ） (2023-11-09T16:51:26Z)
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。ソフトマージン条件下でのバニラQ関数の類似した結果を示す。我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文参考訳（メタデータ） (2023-02-05T14:22:41Z)
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints [36.16736392624796]
平均基準付き制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。我々は,平均CMDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いた。 ACMDPに適応した他の最先端アルゴリズムと比較して,実験性能が優れていることを示す。
論文参考訳（メタデータ） (2023-02-02T00:23:36Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Exploiting Temporal Structures of Cyclostationary Signals for Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文参考訳（メタデータ） (2022-08-22T14:04:56Z)
Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文参考訳（メタデータ） (2022-03-17T11:19:41Z)
DESTRESS: Computation-Optimal and Communication-Efficient Decentralized Nonconvex Finite-Sum Optimization [43.31016937305845]
インターネット・オブ・シング、ネットワークセンシング、自律システム、有限サム最適化のための分散アルゴリズムのためのフェデレーション学習。非有限サム最適化のためのDecentralized STochastic Recursive MethodDESTRESSを開発した。詳細な理論的および数値的な比較は、DESTRESSが事前の分散アルゴリズムにより改善されていることを示している。
論文参考訳（メタデータ） (2021-10-04T03:17:41Z)
Distributed Learning and Democratic Embeddings: Polynomial-Time Source Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient Descent under Communication Constraints [46.17631511884969]
我々は、n次元ユークリッド空間においてベクトルを圧縮する問題を考える。数値化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味では、民主主義的および民主的に近いソースコーディングスキームが(ほぼ)最適であることを示す。分散最適化アルゴリズムDGD-DEFを提案する。このアルゴリズムは,提案した符号化戦略を用いて,(ほぼ)定数要素内における最小収束率を実現する。
論文参考訳（メタデータ） (2021-03-13T00:04:11Z)
Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文参考訳（メタデータ） (2021-02-27T19:28:39Z)
Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文参考訳（メタデータ） (2021-02-23T15:01:36Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。 PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文参考訳（メタデータ） (2020-07-31T01:02:57Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。