論文の概要: Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications
- arxiv url: http://arxiv.org/abs/2602.15640v1
- Date: Tue, 17 Feb 2026 15:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.102157
- Title: Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications
- Title(参考訳): 意味コミュニケーションのための遅延認識型ヒューマン・イン・ザ・ループ強化学習
- Authors: Peizheng Li, Xinyi Lin, Adnan Aijaz,
- Abstract要約: 本稿では,人間のフィードバック,セマンティック・ユーティリティ,遅延制御を組み込んだ時間制約付き人間間強化学習フレームワークを提案する。
人間のフィードバックによる意味適応をマルコフ決定過程として定式化する。
我々は,T-HITL-RLがユーザ毎のタイミング制約を一貫して満たし,ベースラインスケジューラの報酬を上回り,リソース消費を安定させることを示す。
- 参考スコア(独自算出の注目度): 2.9668257052955176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic communication promises task-aligned transmission but must reconcile semantic fidelity with stringent latency guarantees in immersive and safety-critical services. This paper introduces a time-constrained human-in-the-loop reinforcement learning (TC-HITL-RL) framework that embeds human feedback, semantic utility, and latency control within a semantic-aware Open radio access network (RAN) architecture. We formulate semantic adaptation driven by human feedback as a constrained Markov decision process (CMDP) whose state captures semantic quality, human preferences, queue slack, and channel dynamics, and solve it via a primal--dual proximal policy optimization algorithm with action shielding and latency-aware reward shaping. The resulting policy preserves PPO-level semantic rewards while tightening the variability of both air-interface and near-real-time RAN intelligent controller processing budgets. Simulations over point-to-multipoint links with heterogeneous deadlines show that TC-HITL-RL consistently meets per-user timing constraints, outperforms baseline schedulers in reward, and stabilizes resource consumption, providing a practical blueprint for latency-aware semantic adaptation.
- Abstract(参考訳): セマンティック通信はタスク整合トランスミッションを約束するが、没入型および安全クリティカルなサービスでは、セマンティックフィリティを厳密なレイテンシ保証と整合させなければならない。
本稿では,人間のフィードバック,セマンティックユーティリティ,遅延制御を,セマンティックアウェアなオープン無線アクセスネットワーク(RAN)アーキテクチャに組み込む,時間制約付きヒューマン・イン・ザ・ループ強化学習(TC-HITL-RL)フレームワークを提案する。
人間のフィードバックによる意味適応を制約付きマルコフ決定プロセス(CMDP)として定式化し、その状態が意味的品質、人間の嗜好、キュースラック、チャネルダイナミクスをキャプチャし、アクション遮蔽と遅延対応報酬の整形による原始的二元的ポリシー最適化アルゴリズムを用いて解決する。
結果として得られたポリシーは、PPOレベルのセマンティック報酬を保ちつつ、空対面と近リアルタイムのRANインテリジェントコントローラ処理予算のばらつきを厳しくする。
不均一な期限付きポイント・ツー・マルチポイントリンクのシミュレーションにより、TC-HITL-RLはユーザ毎のタイミング制約を一貫して満たし、ベースラインスケジューラの報酬を上回り、リソース消費を安定化し、遅延対応セマンティック適応のための実用的な青写真を提供する。
関連論文リスト
- AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - Lyapunov Stability-Aware Stackelberg Game for Low-Altitude Economy: A Control-Oriented Pruning-Based DRL Approach [37.51135101684223]
無人航空機(UAV)は、ユーザからの多様なサービスを支援する重要な航空基地局として機能している。
このような異種ネットワークの有効性は、制限されたオンボードリソースと厳密な安定性要件の間の競合によってしばしば損なわれる。
本稿では,通信遅延が物理的制御安定性に与える影響を明示的にモデル化する,センシング・通信・通信・通信・通信のクローズドループフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T10:01:07Z) - Real-Time Inference for Distributed Multimodal Systems under Communication Delay Uncertainty [37.15356899831919]
接続されたサイバー物理システムは、複数のデータストリームからのリアルタイム入力に基づいて推論を行う。
本稿では,適応時間窓を用いたニューラルインスパイアされたノンブロッキング推論パラダイムを提案する。
我々のフレームワークは、精度-遅延トレードオフをきめ細かな制御で堅牢なリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2025-11-20T10:48:54Z) - A Flexible Multi-Agent Deep Reinforcement Learning Framework for Dynamic Routing and Scheduling of Latency-Critical Services [18.675072317045466]
既存のネットワーク制御ソリューションの多くは平均遅延性能のみを目標としており、厳格なEnd-to-End(E2E)ピークレイテンシ保証を提供していない。
本稿では,MA-DRL(Multi-Agent Deep Reinforcement Learning)の最近の進歩を生かして,適用期限内にパケットを確実に届けることの課題に対処する。
本稿では,集中型ルーティングと分散スケジューリングアーキテクチャを活用したMA-DRLネットワーク制御フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T15:38:10Z) - A Hybrid Reinforcement Learning Framework for Hard Latency Constrained Resource Scheduling [7.586600116278698]
ハードレイテンシ制約付きリソーススケジューリングのための新しい強化学習フレームワーク(HRL-RSHLC)を提案する。
HRL-RSHLCは,ベースラインアルゴリズムと比較して収束速度が速く,優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-03-30T09:39:13Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Guaranteed Dynamic Scheduling of Ultra-Reliable Low-Latency Traffic via
Conformal Prediction [72.59079526765487]
アップリンクにおける超信頼性・低遅延トラフィック(URLLC)の動的スケジューリングは、既存のサービスの効率を大幅に向上させることができる。
主な課題は、URLLCパケット生成のプロセスにおける不確実性である。
本稿では,URLLC トラフィック予測器の品質に関わらず,信頼性と遅延を保証した新しい URLLC パケットスケジューラを提案する。
論文 参考訳(メタデータ) (2023-02-15T14:09:55Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z) - Accelerating Federated Edge Learning via Optimized Probabilistic Device
Scheduling [57.271494741212166]
本稿では,通信時間最小化問題を定式化し,解決する。
最適化されたポリシーは、トレーニングプロセスが進むにつれて、残りの通信ラウンドの抑制から、ラウンドごとのレイテンシの低減へと、徐々に優先順位を転換している。
提案手法の有効性は,自律運転における協調的3次元目標検出のユースケースを通じて実証される。
論文 参考訳(メタデータ) (2021-07-24T11:39:17Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。