論文の概要: Configuration Validation with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.09690v1
- Date: Sun, 15 Oct 2023 00:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 18:51:43.429348
- Title: Configuration Validation with Large Language Models
- Title(参考訳): 大規模言語モデルによる構成検証
- Authors: Xinyu Lian, Yinfang Chen, Runxiang Cheng, Jie Huang, Parth Thakkar,
Tianyin Xu
- Abstract要約: 既存の構成検証技術は手書きのルールやテストケースに依存している。
我々は,異なるLLMを統合した汎用LLMベースの検証フレームワークCiriを開発した。
Ciriは、有効な設定データと誤設定データの両方に基づいて、数ショットの学習で効果的なプロンプトエンジニアリングを考案する。
- 参考スコア(独自算出の注目度): 9.419168305350487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misconfigurations are the major causes of software failures. Existing
configuration validation techniques rely on manually written rules or test
cases, which are expensive to implement and maintain, and are hard to be
comprehensive. Leveraging machine learning (ML) and natural language processing
(NLP) for configuration validation is considered a promising direction, but has
been facing challenges such as the need of not only large-scale configuration
data, but also system-specific features and models which are hard to
generalize. Recent advances in Large Language Models (LLMs) show the promises
to address some of the long-lasting limitations of ML/NLP-based configuration
validation techniques. In this paper, we present an exploratory analysis on the
feasibility and effectiveness of using LLMs like GPT and Codex for
configuration validation. Specifically, we take a first step to empirically
evaluate LLMs as configuration validators without additional fine-tuning or
code generation. We develop a generic LLM-based validation framework, named
Ciri, which integrates different LLMs. Ciri devises effective prompt
engineering with few-shot learning based on both valid configuration and
misconfiguration data. Ciri also validates and aggregates the outputs of LLMs
to generate validation results, coping with known hallucination and
nondeterminism of LLMs. We evaluate the validation effectiveness of Ciri on
five popular LLMs using configuration data of six mature, widely deployed
open-source systems. Our analysis (1) confirms the potential of using LLMs for
configuration validation, (2) understands the design space of LLMbased
validators like Ciri, especially in terms of prompt engineering with few-shot
learning, and (3) reveals open challenges such as ineffectiveness in detecting
certain types of misconfigurations and biases to popular configuration
parameters.
- Abstract(参考訳): ミスコンフィギュレーションは、ソフトウェア障害の主な原因です。
既存の構成検証テクニックは、手動で記述したルールやテストケースに依存しています。
構成検証に機械学習(ML)と自然言語処理(NLP)を活用することは有望な方向と考えられているが、大規模な構成データだけでなく、一般化が難しいシステム固有の機能やモデルの必要性といった課題に直面している。
LLM(Large Language Models)の最近の進歩は、ML/NLPベースの構成検証技術の長期的限界に対処する約束を示している。
本稿では,GPT や Codex などの LLM を用いた構成検証の有効性と有効性について探索的検討を行った。
具体的には、LLMを、追加の微調整やコード生成なしに構成バリデータとして経験的に評価する第一歩を踏み出す。
LLMをベースとした汎用的な検証フレームワークCiriを開発した。
ciriは有効な設定とミスコンフィグレーションデータの両方に基づいて、最小限の学習で効果的なプロンプトエンジニアリングを考案する。
CiriはLSMの出力を検証・集約して検証結果を生成し、LSMの既知の幻覚や非決定性に対処する。
成熟した6つのオープンソースシステムの構成データを用いて,5つのLLM上でのCiriの有効性を評価する。
分析(1)では,LCMを構成検証に使用する可能性を確認し,(2)CiriのようなLCMベースのバリデータの設計空間を,特に数発の学習による迅速なエンジニアリングの観点から理解し,(3)ある種の誤設定の検出や,一般的な構成パラメータへのバイアスなど,オープンな課題を明らかにする。
関連論文リスト
- Face It Yourselves: An LLM-Based Two-Stage Strategy to Localize Configuration Errors via Logs [29.736051629726145]
コンフィグレーションエラーはメンテナと新しいエンドユーザにとって大きな課題となる。
ログがほとんどのエンドユーザに容易にアクセス可能であることを考慮し、設定エラーのローカライズにログを利用する際の課題と機会を概説する予備的研究を行う。
予備研究から得られた知見に基づいて,エンドユーザーがログに基づいて根源構成特性をローカライズするためのLLMベースの2段階戦略を提案する。
論文 参考訳(メタデータ) (2024-03-31T10:47:38Z) - An Empirical Study of Automated Vulnerability Localization with Large Language Models [21.84971967029474]
大規模言語モデル(LLM)は、様々な領域において可能性を示しているが、脆弱性のローカライゼーションにおけるその有効性は未解明のままである。
本調査では,ChatGPTや各種オープンソースモデルなど,コード解析に適した10以上のLLMを対象とする。
ゼロショット学習,ワンショット学習,識別的微調整,生成的微調整の4つのパラダイムを用いて,これらのLCMの有効性を検討する。
論文 参考訳(メタデータ) (2024-03-30T08:42:10Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Impact of Large Language Models on Generating Software Specifications [14.88090169737112]
大規模言語モデル(LLM)は多くのソフトウェア工学のタスクにうまく適用されている。
ソフトウェアコメントやドキュメントからソフトウェア仕様を生成するLLMの機能を評価する。
論文 参考訳(メタデータ) (2023-06-06T00:28:39Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。