Fugu-MT 論文翻訳(概要): Automated DevOps Pipeline Generation for Code Repositories using Large Language Models

論文の概要: Automated DevOps Pipeline Generation for Code Repositories using Large Language Models

arxiv url: http://arxiv.org/abs/2312.13225v1
Date: Wed, 20 Dec 2023 17:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 14:43:32.471727
Title: Automated DevOps Pipeline Generation for Code Repositories using Large Language Models
Title（参考訳）: 大規模言語モデルを用いたコードリポジトリの自動devopsパイプライン生成
Authors: Deep Mehta, Kartik Rawool, Subodh Gujar, Bowen Xu
Abstract要約: 調査では、GitHubの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。 GPTは4。 Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。
参考スコア（独自算出の注目度）: 5.011328607647701
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automating software development processes through the orchestration of GitHub Action workflows has revolutionized the efficiency and agility of software delivery pipelines. This paper presents a detailed investigation into the use of Large Language Models (LLMs) specifically, GPT 3.5 and GPT 4 to generate and evaluate GitHub Action workflows for DevOps tasks. Our methodology involves data collection from public GitHub repositories, prompt engineering for LLM utilization, and evaluation metrics encompassing exact match scores, BLEU scores, and a novel DevOps Aware score. The research scrutinizes the proficiency of GPT 3.5 and GPT 4 in generating GitHub workflows, while assessing the influence of various prompt elements in constructing the most efficient pipeline. Results indicate substantial advancements in GPT 4, particularly in DevOps awareness and syntax correctness. The research introduces a GitHub App built on Probot, empowering users to automate workflow generation within GitHub ecosystem. This study contributes insights into the evolving landscape of AI-driven automation in DevOps practices.
Abstract（参考訳）: githubのアクションワークフローのオーケストレーションによるソフトウェア開発プロセスの自動化は、ソフトウェアデリバリパイプラインの効率性とアジリティに革命をもたらした。本稿では,大規模言語モデル(LLM),特にGPT 3.5とGPT 4を用いて,DevOpsタスク用のGitHub Actionワークフローの生成と評価を行う。当社の方法論は、GitHubの公開リポジトリからのデータ収集、LDM利用のためのエンジニアリングの促進、正確なマッチスコア、BLEUスコア、新しいDevOps Awareスコアを含む評価指標を含む。調査では、GitHubワークフローの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。結果は、特にDevOpsの認識と構文の正確性において、GPT 4の大幅な進歩を示している。 Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。この研究は、DevOpsプラクティスにおけるAI駆動自動化の進化の展望に貢献する。

関連論文リスト

From Prompt to Pipeline: Large Language Models for Scientific Workflow Development in Bioinformatics [2.2160604288512324]
本研究では,現代大規模言語モデル(LLM)が正確な,完全かつ有用なバイオインフォマティクスタスクの生成を支援することができるかどうかを考察する。各種SNP解析、RNA-seq、DNAメチル化、データ検索プラットフォームを用いてこれらのモデルを評価する。その結果,Gemini 2.5 Flash は Galaxy の生成に優れており,DeepSeek-V3 は Nextflow で強く機能していることがわかった。
論文参考訳（メタデータ） (2025-07-27T04:08:11Z)
SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文参考訳（メタデータ） (2025-06-10T17:23:33Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
Iterative Trajectory Exploration for Multimodal Agents [69.32855772335624]
本研究では,マルチモーダルエージェント,すなわちSPORTのオンライン自己探索手法を提案する。 Sportは、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントを通じて動作する。 GTAとGAIAのベンチマークでは、Sport Agentは6.41%と3.64%の改善を達成している。
論文参考訳（メタデータ） (2025-04-30T12:01:27Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文参考訳（メタデータ） (2024-11-08T09:58:02Z)
AFlow: Automating Agentic Workflow Generation [36.61172223528231]
大規模言語モデル(LLM)は、様々な領域にわたる複雑なタスクを解く上で、顕著な可能性を示している。我々は、Monte Carlo Tree Searchを使って、この空間を効率的に探索する自動化フレームワークであるAFlowを紹介します。 6つのベンチマークデータセットに対する実証的な評価は、AFlowの有効性を示し、最先端のベースラインよりも平均5.7%向上している。
論文参考訳（メタデータ） (2024-10-14T17:40:40Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
The Hidden Costs of Automation: An Empirical Study on GitHub Actions Workflow Maintenance [45.53834452021771]
GitHub Actions(GA)は、エンジニアリングタスクの自動実行を合理化するオーケストレーションプラットフォームである。欠陥の修正、依存関係の更新、あるいは既存のワークフローファイルの修正には、人間の介入が必要である。
論文参考訳（メタデータ） (2024-09-04T01:33:16Z)
Automatic Categorization of GitHub Actions with Transformers and Few-shot Learning [12.254055731378045]
GitHub Actions(GHA)は、開発者がパイプラインを作成してメンテナンスするための実用的なツールを提供するために考案されたものだ。検索エンジンにアクションを公開するために、GitHubは開発者がそれらを1つ以上のカテゴリに手動で割り当てることを可能にする。私たちはGitHubでアクションの可視性を高めるための実用的なソリューションであるGavelを提案する。
論文参考訳（メタデータ） (2024-07-24T02:27:36Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
On the effectiveness of Large Language Models for GitHub Workflows [9.82254417875841]
大規模言語モデル(LLM)は、様々なソフトウェア開発タスクにおいてその効果を実証している。異なるレベルのプロンプトを持つ5つのワークフロー関連タスクにおけるLLMの有効性を理解するための、最初の総合的研究を行う。現状のLLMと細調整した3種類のLLMの評価結果から,LLMの現在の有効性と欠点について,様々な興味深い知見が得られた。
論文参考訳（メタデータ） (2024-03-19T05:14:12Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Prompt Engineering or Fine-Tuning: An Empirical Assessment of LLMs for Code [7.760653867600283]
我々は,基本的なプロンプト,コンテキスト内学習,タスク固有のプロンプトという3つのプロンプト技術戦略を用いて,GPT-4を評価する。コード要約、生成、翻訳という3つのコード関連タスクに関する17の微調整モデルと比較する。
論文参考訳（メタデータ） (2023-10-11T00:21:00Z)
How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文参考訳（メタデータ） (2020-03-31T16:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。