Fugu-MT 論文翻訳(概要): On the effectiveness of Large Language Models for GitHub Workflows

論文の概要: On the effectiveness of Large Language Models for GitHub Workflows

arxiv url: http://arxiv.org/abs/2403.12446v1
Date: Tue, 19 Mar 2024 05:14:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:22:07.532906
Title: On the effectiveness of Large Language Models for GitHub Workflows
Title（参考訳）: GitHubワークフローにおける大規模言語モデルの有効性について
Authors: Xinyu Zhang, Siddharth Muralee, Sourag Cherupattamoolayil, Aravind Machiry,
Abstract要約: 大規模言語モデル(LLM)は、様々なソフトウェア開発タスクにおいてその効果を実証している。異なるレベルのプロンプトを持つ5つのワークフロー関連タスクにおけるLLMの有効性を理解するための、最初の総合的研究を行う。現状のLLMと細調整した3種類のLLMの評価結果から,LLMの現在の有効性と欠点について,様々な興味深い知見が得られた。
参考スコア（独自算出の注目度）: 9.82254417875841
License: http://creativecommons.org/licenses/by/4.0/
Abstract: GitHub workflows or GitHub CI is a popular continuous integration platform that enables developers to automate various software engineering tasks by specifying them as workflows, i.e., YAML files with a list of jobs. However, engineering valid workflows is tedious. They are also prone to severe security issues, which can result in supply chain vulnerabilities. Recent advancements in Large Language Models (LLMs) have demonstrated their effectiveness in various software development tasks. However, GitHub workflows differ from regular programs in both structure and semantics. We perform the first comprehensive study to understand the effectiveness of LLMs on five workflow-related tasks with different levels of prompts. We curated a set of $\sim$400K workflows and generated prompts with varying detail. We also fine-tuned LLMs on GitHub workflow tasks. Our evaluation of three state-of-the-art LLMs and their fine-tuned variants revealed various interesting findings on the current effectiveness and drawbacks of LLMs.
Abstract（参考訳）: GitHubワークフローまたはGitHub CIは、開発者がワークフロー、すなわちYAMLファイルとジョブのリストを指定することで、さまざまなソフトウェアエンジニアリングタスクを自動化できる人気のある継続的インテグレーションプラットフォームである。しかし、エンジニアリングの有効なワークフローは面倒だ。また、深刻なセキュリティ問題も発生し、サプライチェーンの脆弱性が発生する可能性がある。大規模言語モデル(LLM)の最近の進歩は、様々なソフトウェア開発タスクにおいてその効果を実証している。しかし、GitHubのワークフローは構造とセマンティクスの両方の通常のプログラムとは異なる。異なるレベルのプロンプトを持つ5つのワークフロー関連タスクにおけるLLMの有効性を理解するための、最初の総合的研究を行う。私たちは$\sim$400Kのワークフローをキュレートし、さまざまな詳細でプロンプトを生成しました。 GitHubのワークフロータスクでLLMを微調整しました。現状のLLM3種とその微調整版について検討した結果,LLMの現在の有効性と欠点について,様々な興味深い知見が得られた。

関連論文リスト

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文参考訳（メタデータ） (2024-11-08T09:58:02Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
Automatic Categorization of GitHub Actions with Transformers and Few-shot Learning [12.254055731378045]
GitHub Actions(GHA)は、開発者がパイプラインを作成してメンテナンスするための実用的なツールを提供するために考案されたものだ。検索エンジンにアクションを公開するために、GitHubは開発者がそれらを1つ以上のカテゴリに手動で割り当てることを可能にする。私たちはGitHubでアクションの可視性を高めるための実用的なソリューションであるGavelを提案する。
論文参考訳（メタデータ） (2024-07-24T02:27:36Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
Automated DevOps Pipeline Generation for Code Repositories using Large Language Models [5.011328607647701]
調査では、GitHubの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。 GPTは4。 Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。
論文参考訳（メタデータ） (2023-12-20T17:47:52Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。ネガティブな対立や干渉はパフォーマンスに悪影響を及ぼすかもしれない我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文参考訳（メタデータ） (2023-11-05T15:48:29Z)
AskIt: Unified Programming Interface for Programming with Large Language Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。 50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文参考訳（メタデータ） (2023-08-29T21:44:27Z)
Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文参考訳（メタデータ） (2023-04-17T09:27:40Z)
A Preliminary Investigation of MLOps Practices in GitHub [10.190501703364234]
機械学習アプリケーションはMLOpsへの関心が高まっている。 GitHubから取得したML対応システムのセットで実装されているMLOpsプラクティスについて、まず最初に調査する。
論文参考訳（メタデータ） (2022-09-23T07:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。