論文の概要: SWE-chat: Coding Agent Interactions From Real Users in the Wild
- arxiv url: http://arxiv.org/abs/2604.20779v1
- Date: Wed, 22 Apr 2026 17:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.247992
- Title: SWE-chat: Coding Agent Interactions From Real Users in the Wild
- Title(参考訳): SWE-chat: 野生の実際のユーザーからのコーディングエージェントインタラクション
- Authors: Joachim Baumann, Vishakh Padmakumar, Xiang Li, John Yang, Diyi Yang, Sanmi Koyejo,
- Abstract要約: SWE-chatは、オープンソースの開発者から収集された実際のコーディングエージェントセッションの大規模なデータセットである。
現在、データセットには6000のセッションが含まれており、63,000以上のユーザプロンプトと355,000のエージェントツールコールが含まれている。
- 参考スコア(独自算出の注目度): 70.18158706281724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents are being adopted at scale, yet we lack empirical evidence on how people actually use them and how much of their output is useful in practice. We present SWE-chat, the first large-scale dataset of real coding agent sessions collected from open-source developers in the wild. The dataset currently contains 6,000 sessions, comprising more than 63,000 user prompts and 355,000 agent tool calls. SWE-chat is a living dataset; our collection pipeline automatically and continually discovers and processes sessions from public repositories. Leveraging SWE-chat, we provide an initial empirical characterization of real-world coding agent usage and failure modes. We find that coding patterns are bimodal: in 41% of sessions, agents author virtually all committed code ("vibe coding"), while in 23%, humans write all code themselves. Despite rapidly improving capabilities, coding agents remain inefficient in natural settings. Just 44% of all agent-produced code survives into user commits, and agent-written code introduces more security vulnerabilities than code authored by humans. Furthermore, users push back against agent outputs -- through corrections, failure reports, and interruptions -- in 44% of all turns. By capturing complete interaction traces with human vs. agent code authorship attribution, SWE-chat provides an empirical foundation for moving beyond curated benchmarks towards an evidence-based understanding of how AI agents perform in real developer workflows.
- Abstract(参考訳): AIコーディングエージェントは大規模に採用されていますが、実際の使用方法や、実際にどの程度のアウトプットが有用であるかに関する実証的な証拠はありません。
SWE-chatは、オープンソースの開発者から収集された実際のコーディングエージェントセッションの大規模なデータセットである。
現在、データセットには6000のセッションが含まれており、63,000以上のユーザプロンプトと355,000のエージェントツールコールが含まれている。
SWE-chatは生きたデータセットです。私たちのコレクションパイプラインは,公開リポジトリからセッションを自動的にかつ継続的に検出し,処理します。
SWE-chatを活用することで、実世界の符号化エージェントの使用状況と障害モードの実証的な特徴を提供する。
セッションの41%では、エージェントが事実上すべてのコミットコード("vibe coding")を書いていますが、23%では、人間が自分自身でコードを書きます。
急速に改善されているにもかかわらず、コーディングエージェントは自然な設定では非効率である。
エージェントが生成したコードのわずか44%がユーザコミットに残っており、エージェント記述されたコードは、人間が作成したコードよりも多くのセキュリティ脆弱性を導入している。
さらにユーザは,修正や障害報告,中断などを通じて,エージェントのアウトプットを,すべてのターンの44%で押し戻します。
SWE-chatは、人間とエージェントのコードオーサシップの属性による完全なインタラクショントレースをキャプチャすることで、AIエージェントが実際の開発者ワークフローでどのように機能するかのエビデンスベースの理解へと、キュレーションされたベンチマークを超えて移行するための実証的な基盤を提供する。
関連論文リスト
- ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? [10.248746359119625]
EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
論文 参考訳(メタデータ) (2026-03-11T14:07:16Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks [22.499464760561434]
バイブコーディングは、人間のエンジニアが大規模言語モデル(LLM)エージェントに複雑なコーディングタスクをほとんど監督せずに完了するよう指示する新しいプログラミングパラダイムである。
実世界のオープンソースプロジェクトから200の機能要求ソフトウェアエンジニアリングタスクからなるベンチマークを提示する。
我々の発見は、特にセキュリティに敏感なアプリケーションにおいて、バイブコーディングが広く採用されているという深刻な懸念を提起する。
論文 参考訳(メタデータ) (2025-12-02T22:11:56Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub [6.7302091035327285]
大規模言語モデル(LLM)は、ソフトウェア開発プロセスに統合されつつある。
自律的なAIエージェントを使用して、コードを生成し、人間の介入を最小限に抑えたプルリクエストを提出する能力は、標準のプラクティスになる可能性がある。
エージェントコーディングツールであるClaude Codeを使って生成した567のGitHubプルリクエスト(PR)を、157のオープンソースプロジェクトで実証研究しました。
論文 参考訳(メタデータ) (2025-09-18T08:48:32Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。