論文の概要: Vision Language Models for Optimization-Driven Intent Processing in Autonomous Networks
- arxiv url: http://arxiv.org/abs/2601.12744v1
- Date: Mon, 19 Jan 2026 05:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.771196
- Title: Vision Language Models for Optimization-Driven Intent Processing in Autonomous Networks
- Title(参考訳): 自律ネットワークにおける最適化駆動インテント処理のためのビジョン言語モデル
- Authors: Tasnim Ahmed, Yifan Zhu, Salimur Choudhury,
- Abstract要約: Intent-Based Networking (IBN)は、オペレーターが低レベルの設定ではなく、高レベルのネットワーク目標を指定することを可能にする。
現在のシステムはテキストベースの意図表現を前提としており、オペレーターは散文のトポロジやパラメータを列挙する必要がある。
我々は、VLM(Vision-Language Models)が、注釈付きネットワークスケッチを正しい最適化コードに処理できることを示します。
- 参考スコア(独自算出の注目度): 6.377294874945291
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Intent-Based Networking (IBN) allows operators to specify high-level network goals rather than low-level configurations. While recent work demonstrates that large language models can automate configuration tasks, a distinct class of intents requires generating optimization code to compute provably optimal solutions for traffic engineering, routing, and resource allocation. Current systems assume text-based intent expression, requiring operators to enumerate topologies and parameters in prose. Network practitioners naturally reason about structure through diagrams, yet whether Vision-Language Models (VLMs) can process annotated network sketches into correct optimization code remains unexplored. We present IntentOpt, a benchmark of 85 optimization problems across 17 categories, evaluating four VLMs (GPT-5-Mini, Claude-Haiku-4.5, Gemini-2.5-Flash, Llama-3.2-11B-Vision) under three prompting strategies on multimodal versus text-only inputs. Our evaluation shows that visual parameter extraction reduces execution success by 12-21 percentage points (pp), with GPT-5-Mini dropping from 93% to 72%. Program-of-thought prompting decreases performance by up to 13 pp, and open-source models lag behind closed-source ones, with Llama-3.2-11B-Vision reaching 18% compared to 75% for GPT-5-Mini. These results establish baseline capabilities and limitations of current VLMs for optimization code generation within an IBN system. We also demonstrate practical feasibility through a case study that deploys VLM-generated code to network testbed infrastructure using Model Context Protocol.
- Abstract(参考訳): Intent-Based Networking (IBN)は、オペレーターが低レベルの設定ではなく、高レベルのネットワーク目標を指定することを可能にする。
最近の研究は、大規模な言語モデルが設定タスクを自動化できることを実証しているが、トラフィックエンジニアリング、ルーティング、リソース割り当てのための実証可能な最適解を計算するために、異なるクラスの意図が最適化コードを生成する必要がある。
現在のシステムはテキストベースの意図表現を前提としており、オペレーターは散文のトポロジやパラメータを列挙する必要がある。
ネットワーク実践者は自然に図を通して構造を推論するが、VLM(Vision-Language Models)が注釈付きネットワークスケッチを正しい最適化コードに処理できるかどうかはまだ不明である。
本稿では,GPT-5-Mini,Claude-Haiku-4.5,Gemini-2.5-Flash,Llama-3.2-11B-Visionの4つのVLM(GPT-5-Mini,Claude-Haiku-4.5,Gemini-2.5-Flash,Llama-3.2-11B-Vision)を,マルチモーダルとテキストのみの入力に対して3つの手順で評価する。
GPT-5-Mini は 93% から 72% に低下した。
Llama-3.2-11B-Vision は GPT-5-Mini の75% に対して 18% に達した。
これらの結果は、ISNシステム内での最適化コード生成のために、現在のVLMのベースライン機能と制限を確立する。
また、モデルコンテキストプロトコルを用いて、VLM生成コードをネットワークテストベッドインフラストラクチャにデプロイするケーススタディを通じて、実用的な実現可能性を示す。
関連論文リスト
- SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization [32.785475974900244]
既存のVision-Language Navigation (VLN)エージェントは、しばしば認識エラー、推論エラー、計画エラーに悩まされる。
これらの制限に対処するため、SeeNav-Agentという新しいVLNエージェントフレームワークが提案されている。
Step Reward Group Policy Optimization (SRGPO) は、VLNエージェントのポストトレーニング用に設計されている。
論文 参考訳(メタデータ) (2025-12-02T10:40:46Z) - InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency [255.9417257812203]
InternVL 3.5は、多目的性、推論能力、推論効率を大幅に向上させる、オープンソースの新しいマルチモーダルモデルである。
主要なイノベーションはCascade Reinforcement Learningフレームワークで、2段階のプロセスを通じて推論を強化する。
我々の最大のモデルであるInternVL3.5-241B-A28Bは、一般的なマルチモーダル、推論、テキスト、エージェントタスクにわたるオープンソースのMLLMの最先端の結果を得る。
論文 参考訳(メタデータ) (2025-08-25T17:58:17Z) - Integrating Language Models for Enhanced Network State Monitoring in DRL-Based SFC Provisioning [5.37102888813454]
本稿では,Deep Reinforcement Learning(DRL)とLanguage Models(LM)を統合し,ネットワーク管理を強化する。
DRLからLMに最終的なVNF割り当てを供給することにより、システムはSFC、DC、VNFに関連するクエリを処理および応答し、リソース利用、ボトルネック検出、将来の需要計画に関するリアルタイムな洞察を可能にする。
論文 参考訳(メタデータ) (2025-02-16T22:52:14Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [84.84277196012907]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。