論文の概要: ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks
- arxiv url: http://arxiv.org/abs/2505.10992v1
- Date: Fri, 16 May 2025 08:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.367949
- Title: ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks
- Title(参考訳): ReaCritic:異種ネットワークのための大共振変換器を用いたDRL批判モデルスケーリング
- Authors: Feiran You, Hongyang Du,
- Abstract要約: ヘテロジニアスネットワーク(HetNets)は、多様なユーザ要件と時間変化のある無線条件のために、インテリジェント管理において重要な課題を提起する。
本稿では,ReaCriticを提案する。ReaCriticは,Deep Reinforcement Learningに推論能力をもたらす,大きな推論変換に基づく批判モデルスケーリングスキームである。
幅広い値ベースおよびアクタークリティカルなDRLアルゴリズムと互換性があり、動的無線環境における一般化を促進する。
- 参考スコア(独自算出の注目度): 4.931691794637798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Heterogeneous Networks (HetNets) pose critical challenges for intelligent management due to the diverse user requirements and time-varying wireless conditions. These factors introduce significant decision complexity, which limits the adaptability of existing Deep Reinforcement Learning (DRL) methods. In many DRL algorithms, especially those involving value-based or actor-critic structures, the critic component plays a key role in guiding policy learning by estimating value functions. However, conventional critic models often use shallow architectures that map observations directly to scalar estimates, limiting their ability to handle multi-task complexity. In contrast, recent progress in inference-time scaling of Large Language Models (LLMs) has shown that generating intermediate reasoning steps can significantly improve decision quality. Motivated by this, we propose ReaCritic, a large reasoning transformer-based criticmodel scaling scheme that brings reasoning ability into DRL. ReaCritic performs horizontal reasoning over parallel state-action inputs and vertical reasoning through deep transformer stacks. It is compatible with a broad range of value-based and actor-critic DRL algorithms and enhances generalization in dynamic wireless environments. Extensive experiments demonstrate that ReaCritic improves convergence speed and final performance across various HetNet settings and standard OpenAI Gym control tasks.
- Abstract(参考訳): ヘテロジニアスネットワーク(HetNets)は、多様なユーザ要件と時間変化のある無線条件のために、インテリジェント管理において重要な課題を提起する。
これらの要因は、既存のDeep Reinforcement Learning(DRL)メソッドの適応性を制限する、決定の複雑さを著しく引き起こす。
多くのDRLアルゴリズム、特に価値に基づく、あるいはアクター批判的構造を含むものにおいて、批判的要素は、価値関数を推定することによってポリシー学習を導く上で重要な役割を果たしている。
しかし、従来の批評家モデルは、観測結果をスカラー推定に直接マッピングする浅いアーキテクチャを使い、マルチタスクの複雑さを扱う能力を制限する。
対照的に、Large Language Models (LLMs) の推論時間スケーリングの最近の進歩は、中間的推論ステップの生成によって決定品質が大幅に向上することを示した。
そこで本研究では,DRLに推論能力をもたらす大規模な推論変換器に基づく批判モデルスケーリングスキームであるReaCriticを提案する。
ReaCriticは、並列状態-動作入力に対する水平推論と、深いトランスフォーマースタックによる垂直推論を行う。
幅広い値ベースおよびアクタークリティカルなDRLアルゴリズムと互換性があり、動的無線環境における一般化を促進する。
大規模な実験により、ReaCriticは、さまざまなHetNet設定と標準のOpenAI Gymコントロールタスクのコンバージェンス速度と最終的なパフォーマンスを改善している。
関連論文リスト
- OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A Deep Q-Network Based on Radial Basis Functions for Multi-Echelon
Inventory Management [6.149034764951798]
本稿では,複雑なネットワークトポロジによる複数エケロン在庫管理問題に対処する。
Q-ネットワークが放射基底関数に基づくDRLモデルを開発する。
ベースストックポリシーが最適であるシリアルシステムにおいて、マルチエケロンシステムにおけるより良いポリシーと競争性能を生成する。
論文 参考訳(メタデータ) (2024-01-29T04:11:56Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。