論文の概要: RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations
- arxiv url: http://arxiv.org/abs/2605.26177v1
- Date: Mon, 25 May 2026 06:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.272674
- Title: RepoMirage: Probing Repository Context Reasoning in Code Agents with Perturbations
- Title(参考訳): RepoMirage: 摂動を伴うコードエージェントにおけるリポジトリコンテキスト推論の提案
- Authors: Hanyu Li, Yichi Zhang, Speed Zhu, Hang Su, Jun Zhu, Yinpeng Dong,
- Abstract要約: 本稿では,SWE-Bench Verified上に構築された2段階評価スイートRepoMirageを紹介する。
RepoMirage-Perturbは、リポジトリレベルの摂動を保存する3つのタイプのセマンティクスを適用している。
RepoAnchorは、下流の問題解決からリポジトリの探索を分離する構造第一のプロトタイプワークフローである。
- 参考スコア(独自算出の注目度): 51.43574078961796
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code agents are currently having skillful performance on repository-level software engineering benchmarks, but it remains unclear whether success on end-to-end tasks such as issue resolution truly reflects repository context reasoning, the ability to identify the task-relevant information across multiple files and reason over the relations among them. To investigate this question, we introduce RepoMirage, a two-stage evaluation suite built on SWE-Bench Verified that adopts perturbation as a diagnostic tool to increase the demand for context reasoning by transforming how the repository is exposed. First, RepoMirage-Perturb applies three types of semantics-preserving repository-level perturbations, revealing a clear performance drop when correct solving requires broader context access. RepoMirage-Extend further turns perturbation-targeted structural bottlenecks into explicit tasks beyond issue resolution, where the average performance declines from 66.8% in the original setting to 25.3%, indicating a significant deficiency in repository context reasoning. Further trajectory analysis reveals an exploration drift, where agents access broader repository context but fail to turn it into effective structure information. Motivated by this observation, we propose RepoAnchor, a structure-first prototype workflow that separates repository exploration from downstream problem solving, and show that explicit structural scaffolding yields notable gains. These results uncover an previously overlooked gap in repository context reasoning for code agents and suggest that stronger structure-aware methods are potential to improve them.
- Abstract(参考訳): コードエージェントは現在、リポジトリレベルのソフトウェアエンジニアリングベンチマークで熟練したパフォーマンスを保っているが、イシュー解決のようなエンドツーエンドタスクの成功が、リポジトリコンテキストの推論を真に反映しているかどうか、複数のファイルにまたがるタスク関連情報を識別し、それらの関係を推論する能力を持っているかどうかは不明だ。
本稿では,SWE-Bench Verified上に構築された2段階評価スイートであるRepoMirageを紹介する。
まず、RepoMirage-Perturbは、リポジトリレベルの摂動を保存する3つのタイプのセマンティクスを適用します。
RepoMirage-Extendは、摂動をターゲットとした構造的ボトルネックを、イシュー解決を超える明確なタスクに変え、そこでは、平均的なパフォーマンスが66.8%から25.3%に低下し、リポジトリコンテキストの推論に重大な欠陥があることを示している。
さらなる軌道解析により、エージェントはより広いリポジトリコンテキストにアクセスするが、効果的な構造情報にはならない探索漂流が明らかになる。
本稿では,リポジトリ探索と下流問題解決を分離する構造ファーストのプロトタイプワークフローであるRepoAnchorを提案する。
これらの結果は、コードエージェントに対するリポジトリコンテキスト推論のこれまで見過ごされていたギャップを明らかにし、より強力な構造認識メソッドがそれらを改善する可能性があることを示唆している。
関連論文リスト
- Meta-Agent: From Task Descriptions to Verified Multi-Agent Systems [36.485119937780524]
本稿では,マルチエージェントシステムの自動構築と実行を行う2相フレームワークMeta-Agentを提案する。
本稿では,局所的,上流的,構造的障害を区別する3段階の誤り帰属機構を提案する。
強力なマルチエージェントベースラインとアブレーションスタディに対する実験では、タスク成功率、エラー回復、ワークフロー安定性が一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-05-24T19:38:54Z) - BUILD-AND-FIND: An Effort-Aware Protocol for Evaluating Agent-Managed Codebases [0.0]
BUILD-AND-FINDは、下流エージェントが生成されたリポジトリから意図した選択を復元できるかどうかを評価するプロトコルである。
各タスクに対して、ビルダーは隠されたリポジトリの仕様を見て、仕様に書かれた複数選択の質問バンクを作成します。
このプロトコルは、行動の正しさをアーティファクト側のリカバリから切り離し、リカバリの正確性、再現性、実装のカバレッジ、検査の労力を報告します。
論文 参考訳(メタデータ) (2026-05-07T12:35:27Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training [80.20022221643414]
Cycle-Consistent Searchは、検索エージェントを訓練するための金色のスーパービジョンのないフレームワークである。
CCSは教師付きベースラインに匹敵する性能を示す。
これらの結果から,CCSは金の監督が不可能な環境で検索エージェントを訓練するためのスケーラブルな訓練パラダイムを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2026-04-14T17:00:18Z) - A Benchmark for Evaluating Repository-Level Code Agents with Intermediate Reasoning on Feature Addition Task [11.218318079376365]
RACE-benchは、機能追加タスクでコードエージェントを評価するための推論強化ベンチマークである。
RACE-benchには、12のオープンソースリポジトリから528の現実世界の機能追加インスタンスが含まれている。
RACE-bench上での3つのリポジトリレベルのコードエージェントの評価を行った。
論文 参考訳(メタデータ) (2026-03-27T11:58:47Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - ARC: Active and Reflection-driven Context Management for Long-Horizon Information Seeking Agents [9.76162701959422]
ARCは、コンテキスト管理を体系的に定式化するフレームワークである。
実行中にコンテキストを動的内部推論状態として扱う。
パッシブ・コンテクスト・コンテクスト・コンプレックス・メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-17T12:17:50Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - RepoScope: Leveraging Call Chain-Aware Multi-View Context for Repository-Level Code Generation [16.544483144957407]
RepoScopeは、リポジトリレベルのコード生成のためのコールチェーン対応のマルチビューコンテキストである。
本稿では,リポジトリの構造的セマンティクスを利用して,対象関数における呼び出し者の識別を改善する新しいコールチェーン予測手法を提案する。
RepoScopeは最先端の手法より優れており、pass@1スコアの36.35%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-07-20T02:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。