Fugu-MT 論文翻訳(概要): Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub

論文の概要: Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub

arxiv url: http://arxiv.org/abs/2601.00477v1
Date: Thu, 01 Jan 2026 21:14:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-05 15:04:33.466003
Title: Security in the Age of AI Teammates: An Empirical Study of Agentic Pull Requests on GitHub
Title（参考訳）: AIチームメイト時代のセキュリティ - GitHubにおけるエージェントプル要求の実証的研究
Authors: Mohammed Latif Siddiq, Xinye Zhao, Vinicius Carvalho Lopes, Beatrice Casey, Joanna C. S. Santos,
Abstract要約: 本研究の目的は,自律型コーディングエージェントが実際にソフトウェアセキュリティにどのように貢献するかを特徴付けることである。 AIDevデータセットを用いてエージェントによるPRの大規模解析を行う。次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。
参考スコア（独自算出の注目度）: 4.409447722044799
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous coding agents are increasingly deployed as AI teammates in modern software engineering, independently authoring pull requests (PRs) that modify production code at scale. This study aims to systematically characterize how autonomous coding agents contribute to software security in practice, how these security-related contributions are reviewed and accepted, and which observable signals are associated with PR rejection. We conduct a large-scale empirical analysis of agent-authored PRs using the AIDev dataset, comprising of over 33,000 curated PRs from popular GitHub repositories. Security-relevant PRs are identified using a keyword filtering strategy, followed by manual validation, resulting in 1,293 confirmed security-related agentic-PRs. We then analyze prevalence, acceptance outcomes, and review latency across autonomous agents, programming ecosystems, and types of code changes. Moreover, we apply qualitative open coding to identify recurring security-related actions and underlying intents, and examine review metadata to identify early signals associated with PR rejection. Security-related Agentic-PRs constitute a meaningful share of agent activity (approximately 4\%). Rather than focusing solely on narrow vulnerability fixes, agents most frequently perform supportive security hardening activities, including testing, documentation, configuration, and improved error handling. Compared to non-security PRs, security-related Agentic-PRs exhibit lower merge rates and longer review latency, reflecting heightened human scrutiny, with variation across agents and programming ecosystems. PR rejection is more strongly associated with PR complexity and verbosity than with explicit security topics.
Abstract（参考訳）: 自律的なコーディングエージェントは、大規模に運用コードを変更するプルリクエスト(PR)を独立して作成する、現代のソフトウェアエンジニアリングにおけるAIチームメイトとして、ますます多くデプロイされている。本研究の目的は,自律型コーディングエージェントがソフトウェアセキュリティにどのように貢献するか,セキュリティ関連のコントリビューションがどのようにレビューされ,受け入れられるか,PR拒絶に関連する可観測信号はどれか,を体系的に特徴付けることである。一般的なGitHubリポジトリから33,000以上のキュレートされたPRからなるAIDevデータセットを使用して,エージェントによるPRを大規模に分析する。セキュリティ関連PRはキーワードフィルタリング戦略を用いて識別され、その後手作業による検証が行われ、1,293のセキュリティ関連エージェント-PRが確認される。次に、頻度、受け入れ結果を分析し、自律エージェント、プログラミングエコシステム、コード変更のタイプをレビューします。さらに,セキュリティ関連行動や基本意図の特定に定性的オープンコーディングを適用し,レビューメタデータを検証して,PR拒絶に関連する早期信号の同定を行う。セキュリティ関連のエージェント-PRは、エージェント活動の有意義なシェア(約4\%)を構成する。脆弱性修正にのみ焦点をあてるのではなく、エージェントはテスト、ドキュメント、設定、エラー処理の改善など、サポート的なセキュリティ強化アクティビティを頻繁に実行する。非セキュリティPRと比較して、セキュリティ関連のAgentic-PRはマージレートが低く、レビューの遅延が長くなる。 PR拒絶は、明示的なセキュリティトピックよりもPR複雑性と冗長性に強く結びついている。

関連論文リスト

OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文参考訳（メタデータ） (2026-02-13T21:32:32Z)
Favia: Forensic Agent for Vulnerability-fix Identification and Analysis [5.43098755190303]
脆弱性修正識別のための法医学的エージェントベースのフレームワークであるFaviaを提案する。 Faviaは、スケーラブルな候補ランキングと、深く反復的なセマンティック推論を組み合わせる。私たちは、実世界の3,708のリポジトリから800万以上のコミットからなる大規模なデータセットであるCVEVC上で、Faviaを評価しました。
論文参考訳（メタデータ） (2026-02-13T00:51:22Z)
Why Agentic-PRs Get Rejected: A Comparative Study of Coding Agents [0.0]
本稿では,コーディングエージェント(Agentic-PRs)を用いたプルリクエストが,エージェントとしてラベル付けされていないPR(Human-PRs)よりも少ない頻度で受け入れられていることを示す。拒否されたPRの多くは明確なフィードバックを欠いているため、拒否理由を決定するのが困難である。
論文参考訳（メタデータ） (2026-02-04T05:24:18Z)
Why Are AI Agent Involved Pull Requests (Fix-Related) Remain Unmerged? An Empirical Study [5.127121704630949]
AIDEV POPデータセットから広く使用されている5つのAIコーディングエージェントによって作成された8,106の修正関連PRを分析した。以上の結果から,他のPRによるテストケース障害や,同じ問題に対する事前解決が,非統合の最も一般的な原因であることが示唆された。
論文参考訳（メタデータ） (2026-01-29T22:06:58Z)
AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。 AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文参考訳（メタデータ） (2026-01-26T13:45:41Z)
AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software Development [12.50615284537175]
大規模言語モデル(LLM)ベースのコーディングエージェントは、プルリクエストの生成とマージを行う自律的なコントリビュータとして機能するようになっている。本稿では,オープンソースリポジトリにおけるエージェント導入の経時的因果関係について検討する。
論文参考訳（メタデータ） (2026-01-20T04:51:56Z)
Agentic AI for Autonomous Defense in Software Supply Chain Security: Beyond Provenance to Vulnerability Mitigation [0.0]
本論文は,自律型ソフトウェアサプライチェーンセキュリティに基づくエージェント人工知能(AI)の例を含む。大規模言語モデル(LLM)ベースの推論、強化学習(RL)、マルチエージェント調整を組み合わせている。その結果、エージェントAIは、自己防衛的で積極的なソフトウェアサプライチェーンへの移行を促進することが示されている。
論文参考訳（メタデータ） (2025-12-29T14:06:09Z)
The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。 CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文参考訳（メタデータ） (2025-12-01T07:05:23Z)
RedCodeAgent: Automatic Red-teaming Agent against Diverse Code Agents [70.24175620901538]
コードエージェントは、強力なコード生成機能とコードインタプリタとの統合により、広く採用されている。現在の静的安全性ベンチマークとレッドチームツールは、出現する現実世界のリスクシナリオを特定するのに不十分である。我々はRedCodeAgentを提案する。RedCodeAgentは、多様なコードエージェントの脆弱性を体系的に発見するように設計された、最初の自動リピートエージェントである。
論文参考訳（メタデータ） (2025-10-02T22:59:06Z)
AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文参考訳（メタデータ） (2025-10-02T02:06:30Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing [6.334110674473677]
既存のアプローチは、セキュアで脆弱性のないコードを生成するのに苦労するコード生成に、単一のエージェントに依存することが多い。コード生成,脆弱性解析,セキュリティ強化にLLM駆動エージェントを活用するマルチエージェントフレームワークであるAutoSafeCoderを提案する。私たちのコントリビューションは、コード生成中に反復的なプロセスで動的および静的なテストを統合することで、マルチエージェントコード生成の安全性を確保することに焦点を当てています。
論文参考訳（メタデータ） (2024-09-16T21:15:56Z)
CodeAgent: Autonomous Communicative Agents for Code Review [12.163258651539236]
コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるツールを紹介する。 CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。結果はCodeAgentの有効性を実証し、コードレビュー自動化の新たな最先端に寄与している。
論文参考訳（メタデータ） (2024-02-03T14:43:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。