Fugu-MT 論文翻訳(概要): Configuration Validation with Large Language Models

論文の概要: Configuration Validation with Large Language Models

arxiv url: http://arxiv.org/abs/2310.09690v1
Date: Sun, 15 Oct 2023 00:50:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-17 18:51:43.429348
Title: Configuration Validation with Large Language Models
Title（参考訳）: 大規模言語モデルによる構成検証
Authors: Xinyu Lian, Yinfang Chen, Runxiang Cheng, Jie Huang, Parth Thakkar, Tianyin Xu
Abstract要約: 既存の構成検証技術は手書きのルールやテストケースに依存している。我々は,異なるLLMを統合した汎用LLMベースの検証フレームワークCiriを開発した。 Ciriは、有効な設定データと誤設定データの両方に基づいて、数ショットの学習で効果的なプロンプトエンジニアリングを考案する。
参考スコア（独自算出の注目度）: 9.419168305350487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Misconfigurations are the major causes of software failures. Existing configuration validation techniques rely on manually written rules or test cases, which are expensive to implement and maintain, and are hard to be comprehensive. Leveraging machine learning (ML) and natural language processing (NLP) for configuration validation is considered a promising direction, but has been facing challenges such as the need of not only large-scale configuration data, but also system-specific features and models which are hard to generalize. Recent advances in Large Language Models (LLMs) show the promises to address some of the long-lasting limitations of ML/NLP-based configuration validation techniques. In this paper, we present an exploratory analysis on the feasibility and effectiveness of using LLMs like GPT and Codex for configuration validation. Specifically, we take a first step to empirically evaluate LLMs as configuration validators without additional fine-tuning or code generation. We develop a generic LLM-based validation framework, named Ciri, which integrates different LLMs. Ciri devises effective prompt engineering with few-shot learning based on both valid configuration and misconfiguration data. Ciri also validates and aggregates the outputs of LLMs to generate validation results, coping with known hallucination and nondeterminism of LLMs. We evaluate the validation effectiveness of Ciri on five popular LLMs using configuration data of six mature, widely deployed open-source systems. Our analysis (1) confirms the potential of using LLMs for configuration validation, (2) understands the design space of LLMbased validators like Ciri, especially in terms of prompt engineering with few-shot learning, and (3) reveals open challenges such as ineffectiveness in detecting certain types of misconfigurations and biases to popular configuration parameters.
Abstract（参考訳）: ミスコンフィギュレーションは、ソフトウェア障害の主な原因です。既存の構成検証テクニックは、手動で記述したルールやテストケースに依存しています。構成検証に機械学習(ML)と自然言語処理(NLP)を活用することは有望な方向と考えられているが、大規模な構成データだけでなく、一般化が難しいシステム固有の機能やモデルの必要性といった課題に直面している。 LLM(Large Language Models)の最近の進歩は、ML/NLPベースの構成検証技術の長期的限界に対処する約束を示している。本稿では,GPT や Codex などの LLM を用いた構成検証の有効性と有効性について探索的検討を行った。具体的には、LLMを、追加の微調整やコード生成なしに構成バリデータとして経験的に評価する第一歩を踏み出す。 LLMをベースとした汎用的な検証フレームワークCiriを開発した。 ciriは有効な設定とミスコンフィグレーションデータの両方に基づいて、最小限の学習で効果的なプロンプトエンジニアリングを考案する。 CiriはLSMの出力を検証・集約して検証結果を生成し、LSMの既知の幻覚や非決定性に対処する。成熟した6つのオープンソースシステムの構成データを用いて,5つのLLM上でのCiriの有効性を評価する。分析(1)では,LCMを構成検証に使用する可能性を確認し,(2)CiriのようなLCMベースのバリデータの設計空間を,特に数発の学習による迅速なエンジニアリングの観点から理解し,(3)ある種の誤設定の検出や,一般的な構成パラメータへのバイアスなど,オープンな課題を明らかにする。

関連論文リスト

Are LLMs Reliable Code Reviewers? Systematic Overcorrection in Requirement Conformance Judgement [8.059802912761919]
我々は,大規模言語モデル(LLM)が自然言語要求にマッチするコードの体系的失敗を明らかにする。より詳細なプロンプト設計、特に説明や修正提案を必要とするものは、より高い誤判定率をもたらす。そこで本稿では,提案した修正を実効的証拠として扱う固定誘導検証フィルタを提案する。
論文参考訳（メタデータ） (2026-02-28T08:35:25Z)
Beyond Basic Specifications? A Systematic Study of Logical Constructs in LLM-based Specification Generation [29.231420590756954]
プログラム仕様の自動生成のための大規模言語モデル(LLM)は、検証効率を向上させるための有望な道として登場した。既存の LLM 仕様生成フレームワークに論理構造を組み込むことを提案する。我々は,様々な種類の構文構造が仕様生成フレームワークに与える影響について,実証的研究を行った。
論文参考訳（メタデータ） (2026-01-31T13:19:40Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
RvLLM: LLM Runtime Verification with Domain Knowledge [8.15645390408007]
大規模言語モデル(LLM)は、例外的なテキスト理解と生成能力のため、AIパラダイムの主流として現れている。不整合または誤ったアウトプットを生成する傾向は、特に正確さと信頼性を必要とする高い領域において、その信頼性に挑戦する。既存の研究は、多くの場合、ドメイン固有の知識を統合する可能性を見越して、汎用シナリオにおけるモデル誤動作の検出と緩和に重点を置いている。
論文参考訳（メタデータ） (2025-05-24T08:21:44Z)
An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning [52.29223403698673]
本稿では, Answer Set Programming (ASP) とともに, Conformal Language Modelling (CLM) の使用について検討する。 LLM から ASP プログラムの集合を生成するために CLM を適用し,出力の正確性に関する統計的保証を提供する。実験の結果,標準サンプリング手法を用いたベースラインモデルではCLMが有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T14:10:10Z)
Challenges in Testing Large Language Model Based Software: A Faceted Taxonomy [14.041979999979166]
LLM(Large Language Models)とMulti-Agent LLM(MALLMs)は、従来の機械学習ソフトウェアとは異なり、非決定性を導入している。本稿では, LLMテストケース設計の分類について, 研究文献, 経験, 実践状況を表すオープンソースツールの両面から報告する。
論文参考訳（メタデータ） (2025-03-01T13:15:56Z)
Next Steps in LLM-Supported Java Verification [0.8057006406834466]
大きな言語モデル(LLM)はコード生成に適したツールであるだけでなく、アノテーションベースのコード仕様を生成することもできる。本稿では、この厳密なツールセットを用いて、信頼できないLCMから正しい仕様アノテーションを確実に取り出す方法について、初期の結果を提供する。
論文参考訳（メタデータ） (2025-02-03T17:55:50Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文参考訳（メタデータ） (2024-10-06T21:20:06Z)
LLM4VV: Exploring LLM-as-a-Judge for Validation and Verification Testsuites [6.796136787585992]
大規模言語モデル(LLM)は進化し、ソフトウェア開発のランドスケープに大きな革命をもたらしています。本稿では,ディレクティブプログラミングモデルのコンパイラ実装を評価するために使用されるテストの判定について考察する。
論文参考訳（メタデータ） (2024-08-21T15:54:17Z)
Face It Yourselves: An LLM-Based Two-Stage Strategy to Localize Configuration Errors via Logs [29.736051629726145]
コンフィグレーションエラーはメンテナと新しいエンドユーザにとって大きな課題となる。ログがほとんどのエンドユーザに容易にアクセス可能であることを考慮し、設定エラーのローカライズにログを利用する際の課題と機会を概説する予備的研究を行う。予備研究から得られた知見に基づいて,エンドユーザーがログに基づいて根源構成特性をローカライズするためのLLMベースの2段階戦略を提案する。
論文参考訳（メタデータ） (2024-03-31T10:47:38Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Impact of Large Language Models on Generating Software Specifications [14.88090169737112]
大規模言語モデル(LLM)は多くのソフトウェア工学のタスクにうまく適用されている。ソフトウェアコメントやドキュメントからソフトウェア仕様を生成するLLMの機能を評価する。
論文参考訳（メタデータ） (2023-06-06T00:28:39Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。