論文の概要: The Conversations Beneath the Code: Triadic Data for Long-Horizon Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2605.02244v1
- Date: Mon, 04 May 2026 05:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.14884
- Title: The Conversations Beneath the Code: Triadic Data for Long-Horizon Software Engineering Agents
- Title(参考訳): コードに基づく会話: 長距離ソフトウェアエンジニアリングエージェントのためのトライアルデータ
- Authors: Yelin Kim,
- Abstract要約: 我々は、トリアードデータの標準的インスタンス化は、2つの相補的な製品であると主張する。
このデータは12~18ヶ月で達成可能であり、すでに隣のフィールドで成熟していると我々は主張する。
- 参考スコア(独自算出の注目度): 1.9097591729497536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier software engineering agents have saturated short-horizon benchmarks while regressing on the work that constitutes senior engineering: long-horizon, multi-engineer, ambiguous-specification deliverables. This paper takes a position on what training data is needed to close the gap. The substrate for the next generation of SWE agents is neither larger GitHub scrapes nor more solo-agent trajectories nor -- sufficient by itself -- open human-AI dialogue logs. It is triadic data: synchronized capture of the human-human conversations where engineering context is formed, the human-AI sessions where that context is partially consumed, and the multi-week cross-functional work that surrounds both. We argue that the canonical instantiation of triadic data is two complementary products: long-horizon expert trajectories captured under stimulated-recall protocols, and simulated cross-functional companies -- instrumented teams of senior engineers, product managers, designers, and data scientists working through ambiguous deliverables on shared infrastructure. We further specify a four-tier evidence framework through which any such corpus -- triadic or otherwise -- must justify its quality to a fine-tuning researcher: mechanical verification, statistical corpus characterization, probe experiments, and pre-registered blind evaluation. We argue that this data is capturable in 12-18 months with methods already mature in adjacent fields, that it is the empirical key to four open questions in agent training, and that the field's near-term research agenda should include it explicitly.
- Abstract(参考訳): フロンティアのソフトウェアエンジニアリングエージェントは、高度なエンジニアリングを構成する作業、すなわち長距離、マルチエンジニアリング、曖昧な特定性の提供に取り組みながら、短い水平のベンチマークを飽和させてきた。
本稿では,ギャップを埋めるために必要なトレーニングデータについて述べる。
次世代のSWEエージェントの基盤は、大きなGitHubスクラップでも、もっとソロエージェントのトラジェクトリでもない。
エンジニアリングコンテキストが形成される人間と人間の会話の同期キャプチャ、そのコンテキストが部分的に消費されるヒューマンとAIのセッション、そして両方を取り巻く複数週間のクロスファンクショナルな作業である。
私たちは、トリアードデータの標準的なインスタンス化は、2つの補完的な製品である、と論じています。例えば、刺激されたリコールプロトコルでキャプチャされた長距離専門家の軌跡と、共有インフラストラクチャ上であいまいな成果物を扱うシニアエンジニア、プロダクトマネージャ、デザイナ、データサイエンティストのチームからなる、クロスファンクショナルな企業です。
さらに、このようなコーパス(トライadicなど)は、機械的検証、統計的コーパスのキャラクタリゼーション、プローブ実験、事前登録されたブラインド評価といった、微調整された研究者にその品質を正当化しなければならない4段階のエビデンス・フレームワークを規定する。
このデータは12~18ヶ月で達成可能であり、すでに隣接分野のメソッドが成熟しており、エージェントトレーニングにおける4つのオープンな質問に対する実証的な鍵であり、フィールドの短期的な研究課題に明示的にそれを含めるべきである、と我々は主張する。
関連論文リスト
- BiCoord: A Bimanual Manipulation Benchmark towards Long-Horizon Spatial-Temporal Coordination [20.953323366922266]
BiCoordは、長い水平とタイトに調整されたバイマニュアル操作のためのベンチマークである。
具体的には、BiCoordは、連続的なアーム間依存関係と動的ロール交換を必要とする多様なタスクで構成されている。
その結果、代表的操作ポリシーは長期化と高度に結合したタスクに苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2026-04-07T13:02:17Z) - MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations [0.0]
大規模な科学的コラボレーションは、膨大な内部文書のコーパスを生み出している。
我々は、物理解析に関する特定の文脈対応の質問に答えるように設計された、レトリーバル拡張生成(RAG)ベースのシステムであるMITRAのプロトタイプを提案する。
MITRAは、内部データベースからの文書検索にSeleniumを使用した新しい自動パイプラインと、高忠実なテキスト抽出のためのレイアウト解析を備えたOCRを採用している。
論文 参考訳(メタデータ) (2026-03-10T15:28:35Z) - AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - What's the next frontier for Data-centric AI? Data Savvy Agents [71.76058707995398]
我々は、エージェントシステムの設計において、データに精通する能力が最優先すべきであると主張している。
本稿では,このビジョンを実現するための4つの重要な機能を提案する。プロアクティブデータ取得,ソフシフィケートデータ処理,インタラクティブテストデータ合成,連続的適応。
論文 参考訳(メタデータ) (2025-11-02T17:09:29Z) - Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents [85.02904078131682]
本稿では,エージェントデータセット間の"インターリングア"として機能する軽量表現言語であるエージェントデータプロトコル(ADP)を紹介する。
ADPはAPI/ツールの使用、ブラウジング、コーディング、ソフトウェアエンジニアリング、一般的なエージェントなど、さまざまなタスクを捉えるのに十分な表現力を持っている。
すべてのコードとデータが公開され、ADPが標準化され、スケーラブルで再現可能なエージェントトレーニングの障壁を低くすることを期待している。
論文 参考訳(メタデータ) (2025-10-28T17:53:13Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - COVERED, CollabOratiVE Robot Environment Dataset for 3D Semantic
segmentation [39.64058995273062]
この研究は、このユースケース用に特別に設計された"CoVERED"という新しいデータセットを開発する。
本稿では,現在最先端(SOTA)アルゴリズムの性能をデータセット上で評価し,マルチLiDARシステムを用いた協調作業空間のリアルタイムセマンティックセマンティックセグメンテーションを実演する。
我々の知覚パイプラインは、8Hzのスループットを維持しながら、予測点精度が$>96%、$>92%の平均交叉率(mIOU)で20Hzのスループットを達成する。
論文 参考訳(メタデータ) (2023-02-24T14:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。