論文の概要: Planning with Language and Generative Models: Toward General Reward-Guided Wireless Network Design
- arxiv url: http://arxiv.org/abs/2602.00357v1
- Date: Fri, 30 Jan 2026 22:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.133208
- Title: Planning with Language and Generative Models: Toward General Reward-Guided Wireless Network Design
- Title(参考訳): 言語と生成モデルによる計画:汎用リワード誘導無線ネットワーク設計に向けて
- Authors: Chenyang Yuan, Xiaoyuan Cheng,
- Abstract要約: 統合報酬関数を用いた拡散型生成推論が屋内展開計画のスケーラブルな基盤となることを示す。
我々は屋内AP展開のための大規模な実世界のデータセットを導入し、報酬のランドスケープを鋭くする必要がある。
- 参考スコア(独自算出の注目度): 1.9036020470547566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent access point (AP) deployment remains challenging in next-generation wireless networks due to complex indoor geometries and signal propagation. We firstly benchmark general-purpose large language models (LLMs) as agentic optimizers for AP planning and find that, despite strong wireless domain knowledge, their dependence on external verifiers results in high computational costs and limited scalability. Motivated by these limitations, we study generative inference models guided by a unified reward function capturing core AP deployment objectives across diverse floorplans. We show that diffusion samplers consistently outperform alternative generative approaches. The diffusion process progressively improves sampling by smoothing and sharpening the reward landscape, rather than relying on iterative refinement, which is effective for non-convex and fragmented objectives. Finally, we introduce a large-scale real-world dataset for indoor AP deployment, requiring over $50k$ CPU hours to train general reward functions, and evaluate in- and out-of-distribution generalization and robustness. Our results suggest that diffusion-based generative inference with a unified reward function provides a scalable and domain-agnostic foundation for indoor AP deployment planning.
- Abstract(参考訳): 知的アクセスポイント(AP)の展開は、複雑な屋内ジオメトリと信号伝搬のため、次世代無線ネットワークでは依然として困難である。
まず汎用大規模言語モデル (LLM) をAP計画のためのエージェント最適化としてベンチマークし, 強い無線ドメイン知識にもかかわらず, 外部検証器への依存は高い計算コストと限られたスケーラビリティをもたらすことを示した。
これらの制約により、様々なフロアプランにまたがるコアAP配置目標をキャプチャーする統一報酬関数によって導かれる生成的推論モデルについて検討した。
拡散サンプリングは代替生成手法よりも一貫して優れていることを示す。
拡散過程は、非凸および断片化された目的に対して有効である反復的精錬に頼るのではなく、報酬景観を滑らかにし、研ぎ澄ませることにより、サンプリングを徐々に改善する。
最後に、屋内AP展開のための大規模実世界のデータセットを導入し、一般的な報酬関数のトレーニングに50kドル以上のCPU時間を必要とし、分布内および分布外一般化とロバスト性を評価する。
以上の結果から,広汎な報酬関数を持つ拡散型生成推論は,屋内AP配置計画において,スケーラブルでドメインに依存しない基盤となることが示唆された。
関連論文リスト
- G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Intelligent Optimization of Wireless Access Point Deployment for Communication-Based Train Control Systems Using Deep Reinforcement Learning [12.256904916760796]
都市鉄道システムは、通信ベースの列車制御(CBTC)システムにますます依存している。
トンネル内のアクセスポイント(AP)の最適配置は、堅牢な無線通信に不可欠である。
経験的モデルに基づく最適化アルゴリズムのような従来の手法は、過剰な測定要求によって妨げられている。
論文 参考訳(メタデータ) (2025-09-29T14:07:44Z) - Percentile-Based Deep Reinforcement Learning and Reward Based Personalization For Delay Aware RAN Slicing in O-RAN [0.0]
オープンRAN(O-RAN)アーキテクチャにおける無線アクセスネットワークスライシングの課題に対処する。
我々の焦点は、物理リソースブロックに競合する複数のモバイル仮想ネットワークオペレータ(MVNO)を含むネットワークに焦点を当てている。
報酬に基づくパーソナライズ手法では,各エージェントが各エージェントのパフォーマンスに基づいて,他のエージェントのモデルの重み付けを優先順位付けする。
論文 参考訳(メタデータ) (2025-07-24T05:45:41Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - Generalized Diffusion Detector: Mining Robust Features from Diffusion Models for Domain-Generalized Detection [0.0]
オブジェクト検出のためのドメイン一般化(DG)は、目に見えないシナリオにおける検出器の性能を高めることを目的としている。
近年の拡散モデルは多様なシーン生成において顕著な機能を示した。
本稿では,拡散モデルの一般化能力を検出器が継承できる効率的な知識伝達フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T22:36:22Z) - DiffSG: A Generative Solver for Network Optimization with Diffusion Model [75.27274046562806]
生成拡散モデルは、様々なクロスドメインアプリケーションで人気がある。
これらのモデルは複雑なネットワーク最適化問題に対処する上で有望である。
本稿では拡散モデルに基づく解生成という,拡散モデル生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T07:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。