論文の概要: Policy Gradient Algorithms for Age-of-Information Cost Minimization
- arxiv url: http://arxiv.org/abs/2512.11990v1
- Date: Fri, 12 Dec 2025 19:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.062208
- Title: Policy Gradient Algorithms for Age-of-Information Cost Minimization
- Title(参考訳): 情報化コスト最小化のためのポリシー勾配アルゴリズム
- Authors: José-Ramón Vidal, Vicent Pla, Luis Guijarro, Israel Leyva-Mayorga,
- Abstract要約: 本研究では,サイバー物理システムにおける情報更新プロセスを最適化するアルゴリズムを2つ導入する。
アルゴリズムは、受信機におけるエイジ・オブ・インフォメーションとデータ転送コストを統合する平均時間コストを最小化する。
- 参考スコア(独自算出の注目度): 2.095755723692814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in cyber-physical systems have increased the importance of maximizing the freshness of the information about the physical environment. However, optimizing the access policies of Internet of Things devices to maximize the data freshness, measured as a function of the Age-of-Information (AoI) metric, is a challenging task. This work introduces two algorithms to optimize the information update process in cyber-physical systems operating under the generate-at-will model, by finding an online policy without knowing the characteristics of the transmission delay or the age cost function. The optimization seeks to minimize the time-average cost, which integrates the AoI at the receiver and the data transmission cost, making the approach suitable for a broad range of scenarios. Both algorithms employ policy gradient methods within the framework of model-free reinforcement learning (RL) and are specifically designed to handle continuous state and action spaces. Each algorithm minimizes the cost using a distinct strategy for deciding when to send an information update. Moreover, we demonstrate that it is feasible to apply the two strategies simultaneously, leading to an additional reduction in cost. The results demonstrate that the proposed algorithms exhibit good convergence properties and achieve a time-average cost within 3% of the optimal value, when the latter is computable. A comparison with other state-of-the-art methods shows that the proposed algorithms outperform them in one or more of the following aspects: being applicable to a broader range of scenarios, achieving a lower time-average cost, and requiring a computational cost at least one order of magnitude lower.
- Abstract(参考訳): 近年のサイバー物理システムの発展により、物理環境に関する情報の鮮度を最大化することの重要性が高まっている。
しかし,インターネット・オブ・モノのアクセスポリシーを最適化し,情報時代(AoI)測定値として測定されるデータの鮮度を最大化することは,課題である。
本研究は,送信遅延特性や年齢コスト関数を知らずにオンラインポリシーを見出すことにより,生成希望モデルの下で動作しているサイバー物理システムにおける情報更新プロセスを最適化する2つのアルゴリズムを導入する。
最適化は、受信機におけるAoIとデータ転送コストを統合した平均時間コストを最小化し、幅広いシナリオに適したアプローチを目指している。
どちらのアルゴリズムも、モデルフリー強化学習(RL)の枠組みの中でポリシー勾配法を採用しており、連続状態とアクション空間を扱うように設計されている。
各アルゴリズムは、情報更新をいつ送信するかを決定するための異なる戦略を用いて、コストを最小化する。
さらに,2つの戦略を同時に適用することは可能であり,コストの削減につながることを示す。
その結果,提案アルゴリズムの収束特性は良好であり,計算可能な場合,最適値の3%以内の時間平均コストが得られることがわかった。
他の最先端手法と比較すると、提案アルゴリズムはより幅広いシナリオに適用可能であり、平均的なコストを低くし、計算コストを少なくとも1桁下げる必要がある。
関連論文リスト
- Neural Nonmyopic Bayesian Optimization in Dynamic Cost Settings [73.44599934855067]
LookaHESは、動的で履歴に依存したコスト環境のために設計された非心筋BOフレームワークである。
LookaHESは、$H$-Entropy Searchのマルチステップ版と、パスワイズサンプリングとニューラルポリシー最適化を組み合わせたものだ。
私たちの革新は、構造化されたドメイン固有のアクションスペースを効果的にナビゲートするために、大きな言語モデルを含むニューラルポリシーの統合です。
論文 参考訳(メタデータ) (2026-01-10T09:49:45Z) - Computational Budget Should Be Considered in Data Selection [21.598075666695483]
データ選択戦略には計算予算が不可欠であるべきだと我々は主張する。
本稿では,新しい計算予算対応データ選択法を提案する。
本手法は,視覚および言語ベンチマークのベースラインを最大14.42%上回る性能向上を実現する。
論文 参考訳(メタデータ) (2025-10-19T12:16:43Z) - Cost-Optimal Active AI Model Evaluation [71.2069549142394]
生成AIシステムの開発には、継続的な評価、データ取得、アノテーションが必要である。
我々は、安価だがしばしば不正確で弱いレーダの使用を積極的にバランスさせる新しいコスト認識手法を開発した。
我々は、弱者と強者の間で所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
論文 参考訳(メタデータ) (2025-06-09T17:14:41Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - Learning-augmented Online Minimization of Age of Information and Transmission Costs [24.873041306990288]
我々は,送信コストと安定化コストの合計を最小化し,最悪の性能保証を実現するために,オンラインアルゴリズムを開発した。
オンラインアルゴリズムは堅牢だが、概して保守的であり、典型的なシナリオでは平均的なパフォーマンスが劣っている。
学習強化アルゴリズムは一貫性と堅牢性の両方を達成することを示す。
論文 参考訳(メタデータ) (2024-03-05T01:06:25Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Landscape-Sketch-Step: An AI/ML-Based Metaheuristic for Surrogate
Optimization Problems [0.0]
コスト関数の広範囲な評価が高価で、アクセス不能、あるいは禁止されるシナリオにおいて、グローバルな最適化のための新しいアルゴリズムを導入する。
この手法はLandscape-Sketch-and-Step (LSS)と呼ばれ、機械学習、レプリカ最適化、強化学習技術を組み合わせたものである。
論文 参考訳(メタデータ) (2023-09-14T01:53:45Z) - Online Stochastic Optimization with Wasserstein Based Non-stationarity [12.91020811577007]
有限期間の地平線上の複数の予算制約を持つ一般的なオンライン最適化問題を検討する。
意思決定者の目標は、予算制約の対象となる累積報酬を最大化することである。
この定式化は、オンラインリニアプログラミングやネットワーク収益管理を含む幅広いアプリケーションを取り込む。
論文 参考訳(メタデータ) (2020-12-13T04:47:37Z) - Decomposition and Adaptive Sampling for Data-Driven Inverse Linear
Optimization [12.610576072466895]
この研究は、線形プログラムの未知のコストベクトルを推論することが目的である逆線形最適化に対処する。
本稿では,既存の手法と比較して,制約の少ない,一般的に許容可能なコスト見積の集合の回復を可能にする,新たな問題の定式化を導入する。
論文 参考訳(メタデータ) (2020-09-16T22:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。