論文の概要: 6GAgentGym: Tool Use, Data Synthesis, and Agentic Learning for Network Management
- arxiv url: http://arxiv.org/abs/2603.29656v1
- Date: Tue, 31 Mar 2026 12:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.6365
- Title: 6GAgentGym: Tool Use, Data Synthesis, and Agentic Learning for Network Management
- Title(参考訳): 6GAgentGym: ネットワーク管理のためのツール利用,データ合成,エージェント学習
- Authors: Jiao Chen, Jianhua Tang, Xiaotong Yang, Zuohong Lv,
- Abstract要約: 6G-Forge ブートストラップによる NS-3 種子からのクローズドループ訓練軌跡の反復的自己指示生成と実験モデルに対する実行検証を行った。
得られたコーパスの微調整とオンラインクローズドループインタラクションによる強化学習により、8BオープンソースモデルはGPT-5に匹敵する全体的な成功率を達成することができる。
- 参考スコア(独自算出の注目度): 4.299007466612815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous 6G network management requires agents that can execute tools, observe the resulting state changes, and adapt their decisions accordingly. Existing benchmarks based on static questions or scripted episode replay, however, do not support such closed-loop interaction, limiting agents to passive evaluation without the ability to learn from environmental feedback. This paper presents 6GAgentGym to provide closed-loop capability. The framework provides an interactive environment with 42 typed tools whose effect classification distinguishes read-only observation from state-mutating configuration, backed by a learned Experiment Model calibrated on NS-3 simulation data. 6G-Forge bootstraps closed-loop training trajectories from NS-3 seeds via iterative Self-Instruct generation with execution verification against the Experiment Model. Supervised fine-tuning on the resulting corpus followed by reinforcement learning with online closed-loop interaction enables an 8B open-source model to achieve comparable overall success rate to GPT-5 on the accompanying 6GAgentBench, with stronger performance on long-horizon tasks. Together, these components provide a viable path toward autonomous, closed-loop network management.
- Abstract(参考訳): 自律的な6Gネットワーク管理には、ツールを実行し、結果の状態を監視し、それに応じて意思決定を適用するエージェントが必要である。
しかし、静的な質問やスクリプト化されたエピソードの再生に基づく既存のベンチマークは、そのようなクローズドループの相互作用をサポートしておらず、エージェントは環境フィードバックから学ぶことができない受動的評価に制限される。
本稿では6GAgentGymをクローズドループ機能として提案する。
このフレームワークは、NS-3シミュレーションデータに基づいて校正された学習実験モデルにより、読み取り専用観察と状態変更設定を区別した42種類のツールによる対話型環境を提供する。
6G-Forge ブートストラップによる NS-3 種子からのクローズドループ訓練軌跡の反復的自己指示生成と実験モデルに対する実行検証を行った。
コーパスの教師付き微調整とオンラインクローズドループインタラクションによる強化学習により、8Bオープンソースモデルは、関連する6GAgentBenchでGPT-5に匹敵する総合的な成功率を達成でき、長時間のタスクではよりパフォーマンスが向上する。
これらのコンポーネントは、自律的でクローズドループネットワーク管理への実行可能なパスを提供する。
関連論文リスト
- AutoMOOSE: An Agentic AI for Autonomous Phase-Field Simulation [0.0]
AutoMOOSEは、ひとつの自然言語プロンプトから完全なシミュレーションライフサイクルを編成するエージェントフレームワークである。
MOOSEの入力ファイルは、人間の専門家参照と正確に一致する12のブロックのうち6つで、機能的に等価である。
インテント、有限要素実行、そして人間による検証のないアレニウス運動論にまたがる、エンドツーエンドの物理的整合性チェックを実行する。
論文 参考訳(メタデータ) (2026-03-22T00:11:19Z) - A Dual-Helix Governance Approach Towards Reliable Agentic AI for WebGIS Development [4.146198197290144]
WebGIS開発には厳格さが必要だが、エージェントAIは5つの大きな言語モデル(LLM)制限のために頻繁に失敗する。
我々は,これらの課題を,モデル能力だけで解決できない構造的ガバナンス問題として捉えた,二重ヘリックスのガバナンスフレームワークを提案する。
本フレームワークは,知識グラフ基板を用いた3トラックアーキテクチャ(知識,行動,スキル)として実装し,実行の安定化を図る。
論文 参考訳(メタデータ) (2026-03-04T18:53:25Z) - Active Zero: Self-Evolving Vision-Language Models through Active Environment Exploration [72.84714132070404]
受動的相互作用から視覚環境の能動的探索に移行する枠組みを提案する。
Active-Zeroでは,3つの共進化エージェントが採用されている。 モデルの機能フロンティアに基づいて,オープンワールドリポジトリからイメージを取得する検索だ。
12ベンチマークにわたるQwen2.5-VL-7B-インストラクションについて : Active-Zero 53.97 における推論タスクの平均精度(5.7%の改善)と一般理解における 59.77 について(3.9%の改善)
論文 参考訳(メタデータ) (2026-02-11T17:29:17Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - Leveraging AI Agents for Autonomous Networks: A Reference Architecture and Empirical Studies [18.534083337294188]
この研究は、ジョゼフ・シファキス(Joseph Sifakis)のAN Agent参照アーキテクチャを機能認知システムに実装することで、アーキテクチャ理論と運用現実のギャップを埋める。
5G NR sub-6 GHz において,サブ10ms のリアルタイム制御を実演し,外ループリンク適応 (OLLA) アルゴリズムよりも6% 高いダウンリンクスループットを実現した。
これらの改善により、従来の自律的障壁を克服し、次世代の目標に向けて重要なL4エナリング能力を推し進めるアーキテクチャの生存性が確認される。
論文 参考訳(メタデータ) (2025-09-10T06:24:57Z) - CodeMerge: Codebook-Guided Model Merging for Robust Test-Time Adaptation in Autonomous Driving [28.022501313260648]
既存のテスト時間適応法は、不安定な最適化とシャープなミニマのために、3Dオブジェクト検出のような高分散タスクで失敗することが多い。
CodeMergeはスケーラブルなモデルマージフレームワークで、コンパクトな潜在空間で操作することでこれらの制限を回避します。
提案手法は,NuScenes-C と LiDAR による7.6% mAP 以上の検出において,エンドツーエンドの3D 検出 14.9% NDS を向上する。
論文 参考訳(メタデータ) (2025-05-22T11:09:15Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Manifold-Aware Self-Training for Unsupervised Domain Adaptation on
Regressing 6D Object Pose [69.14556386954325]
視覚的回帰における合成データと実データとのドメインギャップは,グローバルな特徴アライメントと局所的な改善によって橋渡しされる。
提案手法は明示的な自己教師付き多様体正規化を取り入れ,領域間の一貫した累積的対象依存性を明らかにする。
暗黙的ニューラルファンクションを学習して、最も近いクラスビンへの相対的な方向と目標の距離を推定し、ターゲット分類予測を洗練することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T08:42:41Z) - Visual CPG-RL: Learning Central Pattern Generators for Visually-Guided
Quadruped Locomotion [4.557963624437784]
視覚的に誘導された四足歩行を学習するための枠組みを提案する。
奥深い強化学習フレームワークに、外感知覚と中央パターン生成装置を統合する。
以上の結果から, CPG, 明示的インターオシレータ結合, メモリ対応ポリシ表現はエネルギー効率に有益であることが示唆された。
論文 参考訳(メタデータ) (2022-12-29T18:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。