論文の概要: Beyond Freshness and Semantics: A Coupon-Collector Framework for Effective Status Updates
- arxiv url: http://arxiv.org/abs/2603.26998v1
- Date: Fri, 27 Mar 2026 21:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.728441
- Title: Beyond Freshness and Semantics: A Coupon-Collector Framework for Effective Status Updates
- Title(参考訳): フレッシュネスとセマンティックスを超えて - 効果的なステータス更新のためのクーポンコレクタフレームワーク
- Authors: Youssef Ahmed, Arnob Ghosh, Chih-Chun Wang, Ness B. Shroff,
- Abstract要約: Weaverの長年の疑問に対処する。私のパケットは実際に植物の振る舞いを改善していますか?
クーポンが切れたクーポンの変種として問題をキャストし、受信機のフレッシュネスタイマーと送信機の保存寿命に最適なスケジュールが2倍の閾値で設定されていることを示す。
チャネル成功確率や寿命分布を知らずに最適なポリシを学習する構造対応Q-ラーニングアルゴリズム(SAQ)を設計する。
- 参考スコア(独自算出の注目度): 33.8211919842831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For status update systems operating over unreliable energy-constrained wireless channels, we address Weaver's long-standing Level-C question: do my packets actually improve the plant's behavior? Each fresh sample carries a stochastic expiration time -- governed by the plant's instability dynamics -- after which the information becomes useless for control. Casting the problem as a coupon-collector variant with expiring coupons, we (i) formulate a two-dimensional average-reward MDP, (ii) prove that the optimal schedule is doubly thresholded in the receiver's freshness timer and the sender's stored lifetime, (iii) derive a closed-form policy for deterministic lifetimes, and (iv) design a Structure-Aware Q-learning algorithm (SAQ) that learns the optimal policy without knowing the channel success probability or lifetime distribution. Simulations validate our theoretical predictions: SAQ matches optimal Value Iteration performance while converging significantly faster than baseline Q-learning, and expiration-aware scheduling achieves up to 50% higher reward than age-based baselines by adapting transmissions to state-dependent urgency -- thereby delivering Level-C effectiveness under tight resource constraints.
- Abstract(参考訳): 信頼性の低い無線チャネル上で動作しているステータス更新システムでは、Weaverの長年にわたるレベルC問題に対処します。
それぞれの新鮮なサンプルは、植物の不安定なダイナミクスによって支配される確率的有効期限を持ち、その後、情報は制御に役立ちなくなる。
クーポンの有効期限付きクーポンの変種として,問題に対処する
一 二次元平均逆 MDP を定式化すること。
(ii) 受信機のフレッシュネスタイマと送信機の保存寿命において、最適なスケジュールが2倍に閾値付けされていることを証明する。
三 決定論的寿命に関する閉形式方針を導出し、
(4) チャネル成功確率や寿命分布を知らずに最適なポリシを学習する構造対応Q-ラーニングアルゴリズム(SAQ)を設計する。
SAQはベースラインQ学習よりもかなり速く収束しながら最適な値反復性能と一致し、有効期限付きスケジューリングは、状態依存の緊急度に伝達を適応させることにより、年齢ベースベースラインよりも最大50%高い報酬を達成し、リソースの厳しい制約下でレベルCの有効性を提供する。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Enhancing Q-Value Updates in Deep Q-Learning via Successor-State Prediction [3.2883573376133555]
ディープQ-Networks(DQN)は、リプレイバッファからサンプリングされた遷移から学習することで、将来のリターンを推定する。
SADQは後続状態分布をQ値推定プロセスに統合する。
我々は、SADQがトレーニングのばらつきを低減しつつ、不偏値の推定を維持できることを理論的に保証する。
論文 参考訳(メタデータ) (2025-11-05T20:04:53Z) - OEUVRE: OnlinE Unbiased Variance-Reduced loss Estimation [23.762163604982366]
我々は,現在および過去の時間ステップで学習した関数に対して,各入力サンプルを評価する推定器であるOEUVREを紹介する。
アルゴリズムの安定性は、多くのオンライン学習者が満足する特性であり、最適な更新、一貫性の証明、収束率、そして推定器の集中バウンドである。
論文 参考訳(メタデータ) (2025-10-26T16:41:17Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - CANet: ChronoAdaptive Network for Enhanced Long-Term Time Series Forecasting under Non-Stationarity [0.0]
本稿では,スタイル転送技術に触発された新しいアーキテクチャであるChoronoAdaptive Network (CANet)を紹介する。
CANetの中核は非定常適応正規化モジュールであり、スタイルブレンディングゲートと適応インスタンス正規化(AdaIN)をシームレスに統合する。
実世界のデータセットに関する実験は、CANetが最先端の手法よりも優れていることを検証し、MSEの42%、MAEの22%を達成している。
論文 参考訳(メタデータ) (2025-04-24T20:05:33Z) - Pull-Based Query Scheduling for Goal-Oriented Semantic Communication [14.787190731074322]
本稿では、プルベースステータス更新システムにおけるゴール指向セマンティック通信のためのクエリスケジューリングについて述べる。
本稿では,有効度尺度(GoE)を導入し,長期的有効性分析に累積的視点理論(CPT)を統合する。
本稿では、動的プログラミングに基づくモデルベースソリューションと、最先端の深層強化学習(DRL)アルゴリズムを用いたモデルフリーソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-09T18:51:14Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Age of Semantics in Cooperative Communications: To Expedite Simulation
Towards Real via Offline Reinforcement Learning [53.18060442931179]
協調リレー通信システムにおける状態更新のセマンティックス更新度を測定するための意味学年代(AoS)を提案する。
オンライン・ディープ・アクター・クリティック(DAC)学習手法を,政治時間差学習の枠組みに基づいて提案する。
そこで我々は,以前に収集したデータセットから最適制御ポリシーを推定する,新しいオフラインDAC方式を提案する。
論文 参考訳(メタデータ) (2022-09-19T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。