Fugu-MT 論文翻訳(概要): Explaining GitHub Actions Failures with Large Language Models: Challenges, Insights, and Limitations

論文の概要: Explaining GitHub Actions Failures with Large Language Models: Challenges, Insights, and Limitations

arxiv url: http://arxiv.org/abs/2501.16495v1
Date: Mon, 27 Jan 2025 20:55:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:10.966841
Title: Explaining GitHub Actions Failures with Large Language Models: Challenges, Insights, and Limitations
Title（参考訳）: 大規模な言語モデルでGitHubアクションの失敗を説明する: 課題、洞察、限界
Authors: Pablo Valenzuela-Toledo, Chuyue Wu, Sandro Hernandez, Alexander Boll, Roman Machacek, Sebastiano Panichella, Timo Kehrer,
Abstract要約: GitHub Actions(GA)は、開発者がソフトウェアの自動化、シームレスなビルド、テスト、デプロイに使用するデファクトツールになった。本研究では,大規模言語モデル(LLM)がGA障害に対して正しい,明確で,簡潔で,行動可能な文脈記述(あるいは要約)を生成する可能性について検討する。
参考スコア（独自算出の注目度）: 37.17423965649917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: GitHub Actions (GA) has become the de facto tool that developers use to automate software workflows, seamlessly building, testing, and deploying code. Yet when GA fails, it disrupts development, causing delays and driving up costs. Diagnosing failures becomes especially challenging because error logs are often long, complex and unstructured. Given these difficulties, this study explores the potential of large language models (LLMs) to generate correct, clear, concise, and actionable contextual descriptions (or summaries) for GA failures, focusing on developers' perceptions of their feasibility and usefulness. Our results show that over 80\% of developers rated LLM explanations positively in terms of correctness for simpler/small logs. Overall, our findings suggest that LLMs can feasibly assist developers in understanding common GA errors, thus, potentially reducing manual analysis. However, we also found that improved reasoning abilities are needed to support more complex CI/CD scenarios. For instance, less experienced developers tend to be more positive on the described context, while seasoned developers prefer concise summaries. Overall, our work offers key insights for researchers enhancing LLM reasoning, particularly in adapting explanations to user expertise.
Abstract（参考訳）: GitHub Actions(GA)は、開発者がソフトウェアワークフローの自動化、シームレスなビルド、テスト、デプロイに使用するデファクトツールになった。しかし、GAが失敗すると、開発が中断し、遅延が発生し、コストが上昇します。エラーログは長く、複雑で、構造化されていないことが多いため、障害の診断は特に困難になる。これらの課題を踏まえて,GA障害に対する適切な,明確で簡潔な,行動可能なコンテキスト記述(あるいは要約)を生成するための,大規模言語モデル(LLM)の可能性について検討し,その実現可能性と有用性に対する開発者の認識に焦点を当てた。以上の結果から, 80 %以上の開発者が LLM の説明を, 単純/小ログの正当性の観点から肯定的に評価していることがわかった。総じて,LLMは一般的なGAエラーの理解を支援することが可能であり,手作業による解析を低減できる可能性が示唆された。しかし、より複雑なCI/CDシナリオをサポートするには、推論能力の改善が必要であることもわかりました。例えば、経験の浅い開発者は、説明された文脈でより肯定的になりがちだが、経験の浅い開発者は簡潔な要約を好む。全体として、私たちの研究はLLM推論の強化、特にユーザーの専門知識への説明の適応に重要な洞察を与えています。

関連論文リスト

Thinking Isn't an Illusion: Overcoming the Limitations of Reasoning Models via Tool Augmentations [11.503915439591735]
大きな推論モデル(LRM)は、複雑な推論タスクを扱う最終回答に到達する前にステップバイステップの思考プロセスを出力するように設計されている。最近の実証研究は、明示的な推論のないLLMが、低または高複雑性のタスクにおいて実際にLRMよりも優れていることを示唆している。ツール拡張の際, LRMの限界が持続するかどうかを検討する。
論文参考訳（メタデータ） (2025-07-23T17:04:20Z)
Com$^2$: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models [40.47361817762135]
大規模言語モデル(LLM)は、事前学習を通じて豊富な単純で明示的なコモンセンス知識を習得している。 LLMは単純な知識から派生した複雑で暗黙的なコモンセンスの知識を推論するのに苦労する。複素コモンセンス推論に着目したベンチマークCom$2$を提案する。
論文参考訳（メタデータ） (2025-06-08T09:53:08Z)
An Empirical Study on the Capability of LLMs in Decomposing Bug Reports [9.544728752295269]
本研究では,大規模言語モデル(LLM)が,複雑なバグレポートを自動的に,より小さく自己完結したユニットに分解するのに役立つかどうかを検討する。我々はApache Jiraから収集した127件のプライバシー関連バグレポートについて実証的研究を行った。
論文参考訳（メタデータ） (2025-04-29T16:29:12Z)
Prompting LLMs for Code Editing: Struggles and Remedies [39.02507244469977]
大規模言語モデル(LLM)は、コーディングアシスタントをIDEに組み込むことで、ソフトウェアエンジニアリングを急速に変化させています。本稿では,LLMを利用したコード編集および変換機能であるTransform Codeと,Googleで広く使用されているIDEの開発者インタラクションに関するマルチフェーズ調査を通じて,このギャップの一部に対処する。機能使用状況のテレメトリログを分析し、頻繁な再プロンプトがTransform Codeを使用する開発者の苦労の指標であることを明らかにする。我々は、周囲のコードコンテキストから欠落した情報を推測してプロンプトを自動改善するツールAutoPrompterを提案し、評価し、27%の改善を実現した。
論文参考訳（メタデータ） (2025-04-28T18:59:28Z)
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
Learning from Mistakes: Understanding Ad-hoc Logs through Analyzing Accidental Commits [5.719609621039864]
アドホックログ(ad-hoc logs)”の使用方法について,開発者のプラクティスを研究する文献はほとんどない。我々は、ライブストリーミングされたコーディングビデオを見て分析することで、このような開発者ロギングの実践について研究する。私たちは、GitHub ArchiveリポジトリからJavaScriptの548,880のアドホックログを削除した27GBの偶発的なコミットを収集しました。
論文参考訳（メタデータ） (2025-01-17T00:42:33Z)
AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文参考訳（メタデータ） (2025-01-03T08:55:19Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Can Github issues be solved with Tree Of Thoughts? [0.0]
本研究は,LLMの意思決定能力と問題解決能力を高めるための言語モデル推論フレームワークであるTree of Thoughts(ToT)の導入について紹介する。私たちは、SWE-benchのインスタンスに含まれるGithubの問題に対処するために、ToTを実験的にデプロイします。
論文参考訳（メタデータ） (2024-05-20T11:05:56Z)
Can ChatGPT Support Developers? An Empirical Evaluation of Large Language Models for Code Generation [2.93322471069531]
開発者によるChatGPTとの会話から収集したデータセットであるDevGPTにおける会話の実証分析を行った。この結果から,LLM生成コードを使用する現在の実践は,高レベルな概念を示すか,ドキュメントに例を示すかのどちらかに制限されていることが示唆された。
論文参考訳（メタデータ） (2024-02-18T20:48:09Z)
Rethinking the Roles of Large Language Models in Chinese Grammatical Error Correction [62.409807640887834]
中国語の文法的誤り訂正(CGEC)は、入力文中のすべての文法的誤りを修正することを目的としている。 CGECの修正器としてのLLMの性能は、課題の焦点が難しいため不満足なままである。 CGECタスクにおけるLCMの役割を再考し、CGECでよりよく活用し、探索できるようにした。
論文参考訳（メタデータ） (2024-02-18T01:40:34Z)
Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文参考訳（メタデータ） (2023-09-17T04:18:39Z)
Dcc --help: Generating Context-Aware Compiler Error Explanations with Large Language Models [53.04357141450459]
dcc --helpはCS1とCS2のコースにデプロイされ、2565人の学生が10週間で64,000回以上このツールを使っている。 LLMが生成した説明は、コンパイル時間の90%と実行時の75%で概念的に正確であるが、コードに解決策を提供しない命令を無視することが多かった。
論文参考訳（メタデータ） (2023-08-23T02:36:19Z)
Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文参考訳（メタデータ） (2023-06-21T20:47:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。