論文の概要: Kodezi Chronos: A Debugging-First Language Model for Repository-Scale Code Understanding
- arxiv url: http://arxiv.org/abs/2507.12482v2
- Date: Tue, 29 Jul 2025 05:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.366785
- Title: Kodezi Chronos: A Debugging-First Language Model for Repository-Scale Code Understanding
- Title(参考訳): Kodezi Chronos: リポジトリ規模のコード理解のためのデバッグファースト言語モデル
- Authors: Ishraq Khan, Assad Chowdary, Sharoz Haseeb, Urvish Patel, Yousuf Zaii,
- Abstract要約: 大規模言語モデル(LLM)はコード生成と自動化を改善したが、推論時のコンテキストによって制限されている。
デバッグ専用に構築された言語モデルであるKodezi Chronosを紹介した。
Chronosは、Adaptive Graph-Guided Retrievalを組み合わせて、最大1000万行を、マルチホップ合成(精度92%、リコール85%)、15M以上のセッションでトレーニングされた永続化デバッグメモリ、反復的な修正-テスト-リファインループのための7層アーキテクチャを使ってナビゲートする。
5000の現実世界シナリオでは、Chronosは67.3%の修正精度を達成し、ClaudeとGPTでは14.2%、13.8%を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have improved code generation and software automation, but remain limited by inference-time context and lack structured reasoning over code. Debugging remains unsolved despite these advances. While Claude Opus 4 and GPT-4.1 achieve >70% on code synthesis benchmarks, they perform <15% on real debugging tasks. We introduce Kodezi Chronos, a language model built specifically for debugging. Chronos combines Adaptive Graph-Guided Retrieval to navigate codebases up to 10 million lines using multi-hop traversal (92% precision, 85% recall), Persistent Debug Memory trained on 15M+ sessions, and a 7-layer architecture for iterative fix-test-refine loops. On 5,000 real-world scenarios, Chronos achieves 67.3% fix accuracy, compared to 14.2% and 13.8% for Claude and GPT-4.1 respectively. Chronos reduces debugging time by 40% and iteration count by 65%. It resolves complex multi-file bugs involving cross-repository context and temporal reasoning. Key limitations include 23.4% success on hardware-dependent issues and 41.2% on dynamic language errors. Theoretical analysis shows O(k log d) retrieval complexity with convergence guarantees. In a human evaluation (N=50), 89% of participants preferred Chronos over baseline models. Chronos will be available in Kodezi OS in Q4 2025 and via API in Q1 2026.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成と自動化を改善したが、推論時間によって制限され、コードに対する構造的推論が欠如している。
これらの進歩にもかかわらず、デバッグは未解決のままである。
Claude Opus 4 と GPT-4.1 はコード合成ベンチマークの70%を達成しているが、実際のデバッグタスクでは 15% である。
デバッグ専用に構築された言語モデルであるKodezi Chronosを紹介した。
ChronosはAdaptive Graph-Guided Retrievalを組み合わせることで、最大1000万行までのコードベースを、マルチホップトラバース(精度92%、リコール85%)、15M以上のセッションでトレーニングされた永続化デバッグメモリ、反復的な修正-テスト-リファインループのための7層アーキテクチャを使ってナビゲートする。
5000の現実世界のシナリオでは、Chronosは67.3%の修正精度を達成しており、ClaudeとGPT-4.1はそれぞれ14.2%と13.8%である。
Chronosはデバッグ時間を40%削減し、イテレーション回数を65%削減する。
クロスリポジトリのコンテキストと時間的推論を含む複雑なマルチファイルのバグを解決する。
ハードウェア依存の問題で23.4%が成功し、動的言語エラーで41.2%が成功している。
理論的解析は、収束保証を伴うO(k log d) 検索の複雑さを示している。
人体評価(N=50)では,89%の被験者がベースラインモデルよりもクロノスを好んだ。
Chronosは2025年Q4にKodezi OS、2026年Q1にAPI経由で提供される。
関連論文リスト
- SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings [2.1262605464247812]
自己蒸留(Self-Distillation)は、様々なコード理解タスクにおける正確性のための推論コストの取引方法である。
我々のアーキテクチャは、特定のエンコーダ層を出口ヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。
我々は、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張するコード翻訳によって作成された新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2025-03-04T21:08:17Z) - Empirical Research on Utilizing LLM-based Agents for Automated Bug Fixing via LangGraph [1.4582633500696451]
提案システムは、4ステップの反復ワークフローにLangGraph、GLM4 Flash、ChromaDBの3つのコアコンポーネントを統合し、堅牢なパフォーマンスと機能をシームレスに提供する。
LangGraphはタスクのオーケストレーションのためのグラフベースのライブラリとして機能し、動的更新と一貫性のための統一状態オブジェクトを維持しながら、正確な制御と実行を提供する。
大きな言語モデルであるGLM4 Flashは、自然言語理解、文脈推論、多言語サポートなどの高度な機能を活用して、ユーザのプロンプトに基づいて正確なコードスニペットを生成する。
論文 参考訳(メタデータ) (2025-01-29T12:01:00Z) - VisualCoder: Guiding Large Language Models in Code Execution with Fine-grained Multimodal Chain-of-Thought Reasoning [10.70881967278009]
ビジュアル制御フローグラフ (CFG) を用いたマルチモーダルチェイン・オブ・ワットスニペット (CoT) 推論を統合することで,コード推論を強化する,シンプルかつ効果的なアプローチである VisualCoder を導入する。
我々は,参照機構によるマルチモーダルCoT統合の課題に対処し,コードと実行経路の整合性を確保し,プログラム動作予測,エラー検出,出力生成の性能を向上させる。
論文 参考訳(メタデータ) (2024-10-30T19:07:01Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。