論文の概要: From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level
- arxiv url: http://arxiv.org/abs/2601.03731v1
- Date: Wed, 07 Jan 2026 09:22:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.171536
- Title: From Laboratory to Real-World Applications: Benchmarking Agentic Code Reasoning at the Repository Level
- Title(参考訳): 実験室から実世界のアプリケーションへ:リポジトリレベルでのエージェントコード推論のベンチマーク
- Authors: Jia Li, Yuxin Su, Michael R. Lyu,
- Abstract要約: 本稿では,帰納的アサーション検証を中心とした診断ベンチマークであるRepoReasonを紹介する。
本研究では, 環境を意味として利用し, 地盤構造を再現する実行駆動型突然変異フレームワークを実装した。
我々の発見は、次世代のエージェントソフトウェアエンジニアリングを最適化するための、詳細なホワイトボックスの洞察を提供する。
- 参考スコア(独自算出の注目度): 38.24989792739013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) evolve into autonomous agents, evaluating repository-level reasoning, the ability to maintain logical consistency across massive, real-world, interdependent file systems, has become critical. Current benchmarks typically fluctuate between isolated code snippets and black-box evaluations. We present RepoReason, a white-box diagnostic benchmark centered on abductive assertion verification. To eliminate memorization while preserving authentic logical depth, we implement an execution-driven mutation framework that utilizes the environment as a semantic oracle to regenerate ground-truth states. Furthermore, we establish a fine-grained diagnostic system using dynamic program slicing, quantifying reasoning via three orthogonal metrics: $ESV$ (reading load), $MCL$ (simulation depth), and $DFI$ (integration width). Comprehensive evaluations of frontier models (e.g., Claude-4.5-Sonnet, DeepSeek-v3.1-Terminus) reveal a prevalent aggregation deficit, where integration width serves as the primary cognitive bottleneck. Our findings provide granular white-box insights for optimizing the next generation of agentic software engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)が自律エージェントへと進化し、リポジトリレベルの推論を評価するにつれ、大規模で実世界の相互依存ファイルシステム間の論理的一貫性を維持する能力が重要になっている。
現在のベンチマークは通常、独立したコードスニペットとブラックボックス評価の間で変動する。
帰納的アサーション検証を中心としたホワイトボックス診断ベンチマークであるRepoReasonを提案する。
実際の論理深度を保ちながら記憶をなくすため,環境を意味的オラクルとして利用し,地中構造を再現する実行駆動突然変異フレームワークを実装した。
さらに、動的プログラムスライシングを用いて、ESV$(読み込み負荷),$MCL$(シミュレーション深度),$DFI$(積分幅)という3つの直交測度を用いて、推論を定量化する詳細な診断システムを構築した。
フロンティアモデル(例えば、Claude-4.5-Sonnet、DeepSeek-v3.1-terminus)の包括的評価は、積分幅が主要な認知的ボトルネックとなる一般的な集約的欠陥を示す。
我々の発見は、次世代のエージェントソフトウェアエンジニアリングを最適化するための、詳細なホワイトボックスの洞察を提供する。
関連論文リスト
- From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - LogICL: Distilling LLM Reasoning to Bridge the Semantic Gap in Cross-Domain Log Anomaly Detection [4.319103554448838]
クロスドメイン異常検出のための軽量エンコーダとして,大規模言語モデル(LLM)推論を蒸留するフレームワークであるLogICLを提案する。
推論において、最適化エンコーダは意味的類似性とデルタスコアを用いて推論対応のデモンストレーションを検索する。
少数ショットとゼロショットのクロスドメインベンチマークの実験により、LogICLは異種システム間で最先端のパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2025-12-10T13:13:30Z) - An Empirical Framework for Evaluating Semantic Preservation Using Hugging Face [2.8203629958608722]
我々は,LESSにおける意味保存を,知的コンポーネントの最適化がシステム全体の機能的振る舞いを変化させない特性として定義する。
本稿では,HuggingFaceのマイニングモデル進化データを用いて,LESSにおける意味的保存を評価するための実証的枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-08T19:14:21Z) - Med-CRAFT: Automated Construction of Interpretable and Multi-Hop Video Workloads via Knowledge Graph Traversal [13.216513001286812]
textbfPipelineNameは、新しいニューロシンボリックデータエンジニアリングフレームワークである。
Med-CRAFTは生のビデオストリームから構造化されたビジュアルプリミティブを抽出し、動的時空間知識グラフにインスタンス化する。
このパイプラインをインスタンス化し、大規模な医療ビデオ推論ベンチマークであるM3-Med-Autoを生成します。
論文 参考訳(メタデータ) (2025-11-30T19:24:10Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Integrating Expert Knowledge into Logical Programs via LLMs [3.637365301757111]
ExKLoPは、大規模言語モデルが専門家の知識を論理的推論システムに統合する方法を評価するために設計されたフレームワークである。
この能力は特にエンジニアリングにおいて有用であり、製造業者が推奨する運用範囲などの専門家の知識を、自動化された監視システムに直接組み込むことができる。
論文 参考訳(メタデータ) (2025-02-17T19:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。