論文の概要: Large Language Models as Generalist Policies for Network Optimization
- arxiv url: http://arxiv.org/abs/2512.11839v1
- Date: Wed, 03 Dec 2025 16:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.712936
- Title: Large Language Models as Generalist Policies for Network Optimization
- Title(参考訳): ネットワーク最適化のためのジェネリストポリシとしての大規模言語モデル
- Authors: Duo Wu, Linjia Kang, Zhimin Wang, Fangxin Wang, Wei Zhang, Xuefeng Tao, Wei Yang, Le Zhang, Peng Cui, Zhi Wang,
- Abstract要約: 本稿では,このような汎用的なネットワークポリシーを実現するための,最初の体系的フレームワークであるTraceblazerを紹介する。
本研究は,ジェネラリストネットワークポリシの基盤としてLLMを検証し,ジェネラリスト駆動パラダイムへの第一歩としてTraceblazerを位置づけた。
- 参考スコア(独自算出の注目度): 25.987416911642644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing control policies to ensure robust network services is essential to modern digital infrastructure. However, the dominant paradigm for network optimization relies on designing specialist policies based on handcrafted rules or deep learning models, leading to poor generalization across diverse tasks and environments. In contrast, large language models (LLMs), pretrained on Internet-scale corpora, provide a rich and unified knowledge base that encodes fundamental networking principles. Combined with their emergent abilities in generalization to unseen scenarios, LLMs offer a transformative foundation for generalist network policies that can generalize across diverse tasks and environments with minimal adaptation. In this paper, we present Trailblazer, the first systematic framework to realize such a generalist policy for networking. Trailblazer incorporates a network alignment scheme to ground the LLM in specific networking tasks, and an adaptive policy collaboration mechanism that offloads simple control cases from the LLM to a lightweight policy for computational efficiency. Through extensive simulations and large-scale real-world online evaluation on Douyin (the Chinese version of TikTok), Trailblazer, powered by a single LLM, demonstrates stronger cross-task and cross-environment generalization than conventional specialist policies. Our results validate LLMs as the foundation for generalist network policies, and position Trailblazer as the first step toward the generalist-driven paradigm that enables strong generalization with minimal efforts in policy design.
- Abstract(参考訳): 堅牢なネットワークサービスを保証するための制御ポリシーを設計することは、現代のデジタルインフラにとって不可欠である。
しかし、ネットワーク最適化の主流のパラダイムは、手作りのルールやディープラーニングモデルに基づく専門ポリシーの設計に依存しており、様々なタスクや環境にまたがる一般化が不十分である。
対照的に、インターネット規模のコーパスで事前訓練された大規模言語モデル(LLM)は、ネットワークの基本原理を符号化したリッチで統一された知識ベースを提供する。
予期せぬシナリオへの一般化の創発的な能力と組み合わさって、LLMは様々なタスクや環境を最小限の適応で一般化できる汎用的なネットワークポリシーの変革的基盤を提供する。
本稿では,ネットワークに対するこのような汎用的ポリシーを実現するための,最初の体系的フレームワークであるTraceblazerを提案する。
Trailblazer は、特定のネットワークタスクにおいて LLM を基盤とするネットワークアライメントスキームと、単純な制御ケースを LLM から計算効率の軽量なポリシーにオフロードするアダプティブポリシー協調機構を組み込んでいる。
広範にわたるシミュレーションと、Douyin(TikTokの中国語版)の大規模実世界のオンライン評価を通じて、Traceblazerは、従来の専門ポリシーよりも強力なクロスタスクとクロス環境の一般化を実証している。
本研究は,ジェネラリストネットワーク政策の基盤としてLLMを検証し,政策設計における最小限の努力で強力な一般化を可能にするジェネラリスト駆動パラダイムへの第一歩として,Traceblazerを位置づけた。
関連論文リスト
- Pluralistic Behavior Suite: Stress-Testing Multi-Turn Adherence to Custom Behavioral Policies [18.428149174461264]
PBSUITEは,多元的アライメント仕様に従うために,大規模言語モデルの能力を評価するために設計された動的評価スイートである。
オープンおよびクローズドソースのLLMは、単一ターン設定における行動ポリシーに頑健に固執するが、そのコンプライアンスはマルチターンの対角的相互作用において著しく弱まる。
論文 参考訳(メタデータ) (2025-11-07T06:43:01Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - Large Language Models for Knowledge-Free Network Management: Feasibility Study and Opportunities [36.70339455624253]
本稿では,大規模言語モデル(LLM)と呼ばれる基礎モデルの力による,知識のない新しいネットワーク管理パラダイムについて述べる。
LLMは、最小限のシステム情報を含む入力プロンプトから重要なコンテキストを理解することができ、完全に新しいタスクであっても顕著な推論性能を提供する。
計算結果は,知識のないLLMが既存の知識ベース最適化アルゴリズムに匹敵する性能を達成できることを検証した。
論文 参考訳(メタデータ) (2024-10-06T07:42:23Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
実演として、$I(Z; M)$の教師付きおよび自己教師型実装を提案し、対応する最適化アルゴリズムがRLベンチマークの幅広いスペクトルにわたって顕著な一般化を示すことを実証的に示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - NetLLM: Adapting Large Language Models for Networking [36.61572542761661]
我々は,ネットワーク問題を解決するために低努力でLLMの強力な能力を活用するためのコヒーレントな設計を提供する最初のフレームワークであるNetLLMを紹介する。
具体的には、NetLLMはLLMにネットワーク上のマルチモーダルデータを効果的に処理し、タスク固有の回答を効率的に生成する権限を与える。
論文 参考訳(メタデータ) (2024-02-04T04:21:34Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。