論文の概要: An Empirical Study of NetOps Capability of Pre-Trained Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.05557v2
- Date: Tue, 12 Sep 2023 12:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 16:00:10.012803
- Title: An Empirical Study of NetOps Capability of Pre-Trained Large Language
Models
- Title(参考訳): 事前学習型大言語モデルのネットOps能力に関する実証的研究
- Authors: Yukai Miao, Yu Bai, Li Chen, Dan Li, Haifeng Sun, Xizheng Wang, Ziqiu
Luo, Dapeng Sun, Xiuting Xu, Qi Zhang, Chao Xiang, Xinchi Li
- Abstract要約: 大規模言語モデル(LLM)は人間の言語クエリに応答でき、ネットワーク操作(NetOps)における強力な潜在的な応用を示している。
この研究は、NetOpsの分野で選択されたLLMの機能、強度、限界を体系的に評価する。
評価はNetOpsに関する5,732の質問の収集に基づいて行われ、26の公開パブリックドメイン LLM が含まれている。
- 参考スコア(独自算出の注目度): 20.244808970867467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can respond to human language queries and have
shown powerful potential applications in network operations (NetOps). Thanks to
the large amount of commonsense knowledge inherent, LLMs achieve much better
inference accuracy than traditional models and emerge with strong abilities in
generalization, reasoning, and code generation. These abilities may have a
crucial boost to automated and intelligent NetOps. However, it remains
under-explored how well LLMs perform in various NetOps tasks. In this work, we
make a systematic assessment of the capabilities, strengths, and limitations of
selected LLMs in the field of NetOps. The evaluation is conducted on a
collection of 5,732 questions about NetOps, encompassing 26 publicly available
general-domain LLMs, including ChatGPT, LLaMA, Falcon, etc. We also finetune
some of these LLMs with our collected NetOps corpus and evaluate the resulting
models. The evaluation method follows the widely adopted benchmarks for
general-domain LLMs, combined with Chain-of-Thought Prompts and
Retrieval-Augmented Generation. The results show that only GPT-4 achieves high
accuracy equivalent to passing the NetOps certification exam for humans, while
all the other LLMs have much lower accuracy. However, some open models like
LLaMA 2 still demonstrate significant potential. Furthermore, we evaluate the
impact of factors such as model parameters, prompt engineering, instruction
fine-tuning etc. This work shall be treated as the initial effort to systematic
evaluation of LLMs in NetOps, and a more rigorous study is required for
production use. The evaluation code and dataset will be released to benefit
future research.
- Abstract(参考訳): 大規模言語モデル(LLM)は人間の言語クエリに応答でき、ネットワークオペレーション(NetOps)における強力な潜在的なアプリケーションを示している。
大量のコモンセンス知識のおかげで、LLMは従来のモデルよりもはるかに優れた推論精度を達成し、一般化、推論、コード生成において強力な能力を持つ。
これらの能力は、自動化されたインテリジェントなNetOpsに決定的な向上をもたらす可能性がある。
しかし、LLMが様々なNetOpsタスクでどれだけうまく機能するかは、まだ解明されていない。
本研究では,NetOps の分野で選択した LLM の機能,強度,限界を体系的に評価する。
評価はNetOpsに関する5,732の質問の収集に基づいて行われ、ChatGPT、LLaMA、Falconなど26のパブリックドメイン LLM が含まれている。
また、収集したnetopsコーパスでこれらのllmのいくつかを微調整し、結果モデルを評価する。
この評価法は、一般的なドメイン LLM に対して広く採用されているベンチマークに、Chain-of-Thought Prompts と Retrieval-Augmented Generation を併用する。
その結果, GPT-4のみがNetOps認定試験に合格したのに対して, 他のLLMは精度がはるかに低いことがわかった。
しかし、LLaMA 2のようないくつかのオープンモデルは大きな可能性を秘めている。
さらに,モデルパラメータやプロンプトエンジニアリング,インストラクションの微調整などの要因の影響を評価する。
本研究は,NetOpsにおけるLCMの体系的評価に向けた最初の取り組みとして扱われる。
将来の研究のために評価コードとデータセットがリリースされる予定だ。
関連論文リスト
- Can LLMs Understand Computer Networks? Towards a Virtual System Administrator [15.469010487781931]
本稿では,大規模言語モデルによるコンピュータネットワークの理解に関する総合的研究を初めて行った。
我々は,プライベート(GPT4など)とオープンソース(Llama2)モデルを用いた複数のコンピュータネットワーク上でのフレームワークの評価を行った。
プライベートLLMは、中小のネットワークにおいて注目すべき結果を得る一方、複雑なネットワークトポロジの理解には課題が続く。
論文 参考訳(メタデータ) (2024-04-19T07:41:54Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - TaxoLLaMA: WordNet-based Model for Solving Multiple Lexical Sematic Tasks [54.01153045234468]
本稿では,LLMがWordNetから語彙・意味的知識を抽出する能力について検討する。
4ビット量子化とLoRAにより軽量なオールインワンモデルであるTaxoLLaMAを提案する。
論文 参考訳(メタデータ) (2024-03-14T09:21:25Z) - Linguistic Intelligence in Large Language Models for Telecommunications [5.06945923921948]
自然言語処理(NLP)分野において,Large Language Models (LLMs) が大きな進歩を遂げている。
本研究は,電気通信分野におけるLLMの知識と理解能力を評価することを目的とする。
評価の結果,ゼロショットLLMは現状の細調整モデルに匹敵する性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-02-24T14:01:07Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of
LLMs [51.17542331993448]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - NetLLM: Adapting Large Language Models for Networking [36.61572542761661]
我々は,ネットワーク問題を解決するために,大規模言語モデルを効率的に適応する最初のフレームワークであるNetLLMを提案する。
ネットワークへのLLM適応におけるNetLLMの有効性を実証し、適応されたLLMが最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:21:34Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - One is More: Diverse Perspectives within a Single Network for Efficient
DRL [43.249133438809125]
OMNetは、単一のネットワーク内で複数のワークを活用する新しい学習パラダイムであり、多様なアウトプットを効率的に提供する。
OMNetは、最小限の追加オーバーヘッドで、様々な深層強化学習アルゴリズムに容易に適用できる。
論文 参考訳(メタデータ) (2023-10-21T13:37:13Z) - NetGPT: A Native-AI Network Architecture Beyond Provisioning
Personalized Generative Services [25.468894023135828]
大規模言語モデル(LLM)は、生成情報によって私たちの日常生活を力づけるために大きな成功を収めています。
本稿では,NetGPTを用いて,その計算能力に基づいて,エッジおよびクラウドにおける適切なLLMの相乗化を実現した。
論文 参考訳(メタデータ) (2023-07-12T13:10:08Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。