論文の概要: How Compliant Are GitHub Actions Workflows? A Checklist-Based Study with LLM-Assisted Auditing
- arxiv url: http://arxiv.org/abs/2605.02091v1
- Date: Sun, 03 May 2026 23:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.075537
- Title: How Compliant Are GitHub Actions Workflows? A Checklist-Based Study with LLM-Assisted Auditing
- Title(参考訳): GitHubのアクションワークフローはどの程度準拠しているか? - LLM支援監査によるチェックリストに基づく調査
- Authors: Edward Abrokwah, Taher A. Ghaleb,
- Abstract要約: GitHub Actions (GHA) CIは重要なインフラストラクチャだが、現在のツールは構文やチェックのみを提供する。
本稿では、4つのワークフローセクションと8つのテーマにまたがる30の基準を持つ、新しいドキュメントベースのGHAコンプライアンスチェックリストを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GitHub Actions (GHA) CI workflows are critical infrastructure, but current tooling offers only syntactic or heuristic checks and does not enforce documented best practices for security, maintainability, or performance. Consequently, issues like over-privileged permissions, weak secrets management, and missing failure notifications remain undetected in real-world pipelines. This paper proposes a novel, documentation-grounded GHA compliance checklist with 30 criteria spanning four workflow sections and eight themes, and assesses Large Language Models (LLMs) for scalable compliance auditing. On 95 real-world Java workflows (2,850 assessments) using four open-weight LLMs, we find only fair agreement (Fleiss' kappa = 0.28), with systematic disagreement on structural reasoning and security-sensitive judgments. To address this, we introduce a multi-tier adjudication framework in which GPT 5 resolves model conflicts before targeted manual review, reducing verification effort by 81% while retaining 87% agreement with expert judgment. At scale, it reveals major compliance gaps: overall compliance is 28%, dropping to 4% for permission controls; Security (26%) lags far behind Clarity (68%). Our results show that LLMs enable scalable compliance measurement but cannot replace experts, highlighting the need for hybrid human-AI auditing and providing empirical benchmarks and guidance for defensible GHA workflow audits.
- Abstract(参考訳): GitHub Actions(GHA) CIワークフローは重要なインフラストラクチャであるが、現在のツールは構文的あるいはヒューリスティックなチェックのみを提供し、セキュリティ、保守性、パフォーマンスに関するドキュメント化されたベストプラクティスを強制しない。
その結果、過度に特権化されたパーミッション、弱いシークレット管理、失敗した障害通知といった問題は、現実世界のパイプラインでは未検出のままである。
本稿では、4つのワークフローセクションと8つのテーマにまたがる30の基準を持つ、新しいドキュメントベースのGHAコンプライアンスチェックリストを提案し、スケーラブルなコンプライアンス監査のための大規模言語モデル(LLM)を評価する。
4つのオープンウェイト LLM を用いた実世界の Java ワークフロー (2,850 のアセスメント) では、構造的推論とセキュリティに敏感な判断に関して体系的な意見の相違があるが、公正な合意しか得られない(Fleiss' kappa = 0.28)。
そこで本研究では, GPT 5 が対象手動レビューの前にモデルの矛盾を解消し, 検証作業の81%を削減し, 専門家の判断と87%の合意を維持した多層適応フレームワークを提案する。
全体的なコンプライアンスは28%、パーミッションコントロールは4%に低下している。セキュリティ(26%)はClarity(68%)よりもはるかに遅れている。
以上の結果から,LLMはスケーラブルなコンプライアンス測定を可能にするが,専門家に取って代わることはできず,ハイブリッドな人間-AI監査の必要性を強調し,実証的なベンチマークとGHAワークフロー監査のためのガイダンスを提供する。
関連論文リスト
- Social Bias in LLM-Generated Code: Benchmark and Mitigation [10.39413030802123]
大きな言語モデル(LLM)は、人口統計学的公正性が重要である人間中心のアプリケーションのためのコードを生成するために、ますます多くデプロイされている。
既存の評価は機能的正当性にのみ焦点が当てられており、LLM生成コードの社会的偏見はほとんど検討されていない。
FMA(Fairness Monitor Agent)は,既存のコード生成パイプラインを修正せずにプラグインするモジュールコンポーネントである。
論文 参考訳(メタデータ) (2026-05-01T04:06:02Z) - Measuring LLM Trust Allocation Across Conflicting Software Artifacts [4.974612243038232]
本稿では,Javadoc上の構造化アーティファクトレベルの信頼トレース,メソッドシグネチャ,実装,テストプレフィックスを付与するフレームワークであるTRACEを紹介する。
我々は,人工物ごとの品質評価,不整合検出,影響を受ける人工物属性,ソース優先性を評価した。
論文 参考訳(メタデータ) (2026-04-03T20:38:14Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - SPECA: Specification-to-Checklist Agentic Auditing for Multi-Implementation Systems -- A Case Study on Ethereum Clients [1.711666249985278]
SPECAは、標準要件をチェックリストに変換する仕様からChecklistフレームワークである。
SPECAは,11社を対象とし,フサカアップグレードのセキュリティ監査コンテストの会場内でインスタンス化を行う。
我々の改善されたエージェントは、競争監査の基礎的真実に対して評価され、高影響の脆弱性について27.3%の厳格なリコールを達成した。
論文 参考訳(メタデータ) (2026-02-07T12:19:00Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。