論文の概要: Empirical evaluation of LLMs in predicting fixes of Configuration bugs in Smart Home System
- arxiv url: http://arxiv.org/abs/2502.10953v1
- Date: Sun, 16 Feb 2025 02:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.752759
- Title: Empirical evaluation of LLMs in predicting fixes of Configuration bugs in Smart Home System
- Title(参考訳): スマートホームシステムにおける構成バグの修正予測におけるLCMの実証評価
- Authors: Sheikh Moonwara Anjum Monisha, Atul Bharadwaj,
- Abstract要約: 本研究では,スマートホームシステムにおける構成バグの修正予測におけるLarge Language Models (LLMs)の有効性を評価する。
この研究は、GPT-4、GPT-4o(GPT-4 Turbo)、Claude 3.5 Sonnetの3つの著名なLCMを分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This empirical study evaluates the effectiveness of Large Language Models (LLMs) in predicting fixes for configuration bugs in smart home systems. The research analyzes three prominent LLMs - GPT-4, GPT-4o (GPT-4 Turbo), and Claude 3.5 Sonnet - using four distinct prompt designs to assess their ability to identify appropriate fix strategies and generate correct solutions. The study utilized a dataset of 129 debugging issues from the Home Assistant Community, focusing on 21 randomly selected cases for in-depth analysis. Results demonstrate that GPT-4 and Claude 3.5 Sonnet achieved 80\% accuracy in strategy prediction when provided with both bug descriptions and original scripts. GPT-4 exhibited consistent performance across different prompt types, while GPT-4o showed advantages in speed and cost-effectiveness despite slightly lower accuracy. The findings reveal that prompt design significantly impacts model performance, with comprehensive prompts containing both description and original script yielding the best results. This research provides valuable insights for improving automated bug fixing in smart home system configurations and demonstrates the potential of LLMs in addressing configuration-related challenges.
- Abstract(参考訳): 本研究は,スマートホームシステムにおける構成バグの修正予測におけるLarge Language Models(LLMs)の有効性を評価する。
この研究は、GPT-4、GPT-4o(GPT-4 Turbo)、Claude 3.5 Sonnet(英語版)の3つの著名なLCMを分析し、4つの異なるプロンプト設計を用いて、適切な修正戦略を特定し、正しい解を生成する能力を評価する。
この研究は、Home Assistant Communityの129のデバッグ問題のデータセットを利用して、21のランダムに選択されたケースを詳細に分析した。
その結果、GPT-4とClaude 3.5 Sonnetは、バグ記述とオリジナルスクリプトの両方を提供する場合、戦略予測において80%の精度を達成した。
GPT-4は異なるプロンプトタイプで一貫した性能を示し、GPT-4oはわずかに精度が低いにもかかわらず速度とコスト効率の利点を示した。
その結果, 設計がモデルの性能に大きく影響し, 記述とオリジナルスクリプトの両方を含む包括的なプロンプトが最良の結果をもたらすことがわかった。
本研究は、スマートホームシステム構成における自動バグ修正を改善するための貴重な洞察を提供し、構成に関連した課題に対処する上でのLLMの可能性を示す。
関連論文リスト
- Assessing Large Language Models for Automated Feedback Generation in Learning Programming Problem Solving [0.0]
大規模な言語モデル(LLM)は、フィードバック生成を自動化する潜在的なツールとして登場した。
本研究は,45の学生ソリューションのベンチマークデータセットを用いて,4つのLCMの性能を評価する。
論文 参考訳(メタデータ) (2025-03-18T18:31:36Z) - Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - Large language models streamline automated systematic review: A preliminary study [12.976248955642037]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて、体系的なレビューを自動化する可能性を秘めている。
本研究は,3つのLLMの系統的レビュー作業における性能評価である。
論文 参考訳(メタデータ) (2025-01-09T01:59:35Z) - (WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges [0.0]
この研究は、マイクロソフトのPHI-3citeAbdin2024(コンパクトで効率的で複数の質問に答えるLLM)の可能性を探るものである。
PHI-3.5のMCQ処理は4.68から2.27に減少し、精度は62%から90.8%に向上した。
論文 参考訳(メタデータ) (2025-01-03T00:56:46Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of Prompting Strategies [47.129504708849446]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts [21.150221839202878]
大規模言語モデル(LLM)は、様々な一般的なタスクで大きな成功を収めた。
本研究では,コンピュータ科学におけるNLPのニッチ分野に特有な簡潔な調査項目を生成する上で,LCMsの有効性について検討する。
人間の評価スコアとGPTによる評価スコアを比較し,詳細な分析を行った。
論文 参考訳(メタデータ) (2023-08-21T01:32:45Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。