論文の概要: Kodezi Chronos: A Debugging-First Language Model for Repository-Scale, Memory-Driven Code Understanding
- arxiv url: http://arxiv.org/abs/2507.12482v1
- Date: Mon, 14 Jul 2025 09:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.195872
- Title: Kodezi Chronos: A Debugging-First Language Model for Repository-Scale, Memory-Driven Code Understanding
- Title(参考訳): Kodezi Chronos: リポジトリスケール、メモリ駆動コード理解のためのデバッグファースト言語モデル
- Authors: Ishraq Khan, Assad Chowdary, Sharoz Haseeb, Urvish Patel,
- Abstract要約: Kodezi Chronosは、自律的なコード理解とメンテナンスのための次世代アーキテクチャである。
我々の評価では,ソフトウェア工学分野に特化して,新しいマルチランダム検索ベンチマークを導入している。
Chronosは以前のLCMやコードモデルよりも優れており、実際のバグ検出とデバッグサイクルの最大40%削減が23%改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have advanced code generation and software automation, but are fundamentally constrained by limited inference-time context and lack of explicit code structure reasoning. We introduce Kodezi Chronos, a next-generation architecture for autonomous code understanding, debugging, and maintenance, designed to operate across ultra-long contexts comprising entire codebases, histories, and documentation, all without fixed window limits. Kodezi Chronos leverages a multi-level embedding memory engine, combining vector and graph-based indexing with continuous code-aware retrieval. This enables efficient and accurate reasoning over millions of lines of code, supporting repository-scale comprehension, multi-file refactoring, and real-time self-healing actions. Our evaluation introduces a novel Multi Random Retrieval benchmark, specifically tailored to the software engineering domain. Unlike classical retrieval benchmarks, this method requires the model to resolve arbitrarily distant and obfuscated associations across code artifacts, simulating realistic tasks such as variable tracing, dependency migration, and semantic bug localization. Chronos outperforms prior LLMs and code models, demonstrating a 23% improvement in real-world bug detection and reducing debugging cycles by up to 40% compared to traditional sequence-based approaches. By natively interfacing with IDEs and CI/CD workflows, Chronos enables seamless, autonomous software maintenance, elevating code reliability and productivity while reducing manual effort. These results mark a critical advance toward self-sustaining, continuously optimized software ecosystems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度なコード生成とソフトウェア自動化を持っているが、基本的には推論時間の制限と明示的なコード構造推論の欠如によって制約されている。
Kodezi Chronosは、自律的なコード理解、デバッグ、メンテナンスのための次世代アーキテクチャで、コードベース全体、履歴、ドキュメントからなる超長期のコンテキストを、すべて固定されたウィンドウ制限なしで運用できるように設計されています。
Kodezi Chronosは、ベクトルとグラフベースのインデックスと継続的コード認識検索を組み合わせたマルチレベル埋め込みメモリエンジンを活用している。
これにより、数百万行のコードに対する効率的かつ正確な推論、リポジトリスケールの理解、複数ファイルのリファクタリング、リアルタイムの自己修復アクションをサポートできます。
我々の評価では,ソフトウェア工学分野に特化して,新しいマルチランダム検索ベンチマークを導入している。
古典的な検索ベンチマークとは異なり、この方法では、変数トレース、依存性マイグレーション、セマンティックバグローカライゼーションといった現実的なタスクをシミュレートすることで、コードアーティファクト間の任意の距離と難解な関連を解決する必要がある。
Chronosは以前のLCMやコードモデルよりも優れており、従来のシーケンスベースのアプローチと比較して、現実のバグ検出とデバッグサイクルの最大40%削減が23%改善されている。
IDEやCI/CDワークフローとネイティブに対話することで、Chronosはシームレスで自律的なソフトウェアメンテナンスを可能にし、コードの信頼性と生産性を高めながら、手作業の労力を削減できる。
これらの結果は、自己維持的で継続的に最適化されたソフトウェアエコシステムへの重要な進歩を示す。
関連論文リスト
- A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。
複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。
我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文 参考訳(メタデータ) (2025-07-01T11:51:40Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory [52.44029486173232]
Dynamic Cheatsheet(DC)は、永続的で進化するメモリを備えたブラックボックス言語モデルを提供する軽量フレームワークである。
DCは、蓄積した戦略、コードスニペット、および推論時に一般的な問題解決の洞察をモデルが保存し再利用することを可能にする。
このテストタイム学習は、明確な地味なラベルや人間のフィードバックを必要とせずに、幅広いタスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-10T17:57:33Z) - LocAgent: Graph-Guided LLM Agents for Code Localization [25.395102705800916]
LocAgentは、グラフベースの表現を通じてコードのローカライゼーションに対処するフレームワークである。
細調整したQwen-2.5-Coder-Instruct-32Bモデルを用いて,SOTAプロプライエタリモデルと比較して,コストを大幅に削減した。
論文 参考訳(メタデータ) (2025-03-12T05:55:01Z) - MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings [2.1262605464247812]
自己蒸留(Self-Distillation)は、様々なコード理解タスクにおける正確性のための推論コストの取引方法である。
我々のアーキテクチャは、特定のエンコーダ層を出口ヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。
我々は、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張するコード翻訳によって作成された新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2025-03-04T21:08:17Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Empirical Research on Utilizing LLM-based Agents for Automated Bug Fixing via LangGraph [1.4582633500696451]
提案システムは、4ステップの反復ワークフローにLangGraph、GLM4 Flash、ChromaDBの3つのコアコンポーネントを統合し、堅牢なパフォーマンスと機能をシームレスに提供する。
LangGraphはタスクのオーケストレーションのためのグラフベースのライブラリとして機能し、動的更新と一貫性のための統一状態オブジェクトを維持しながら、正確な制御と実行を提供する。
大きな言語モデルであるGLM4 Flashは、自然言語理解、文脈推論、多言語サポートなどの高度な機能を活用して、ユーザのプロンプトに基づいて正確なコードスニペットを生成する。
論文 参考訳(メタデータ) (2025-01-29T12:01:00Z) - Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。
焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文 参考訳(メタデータ) (2025-01-28T17:11:36Z) - VisualCoder: Guiding Large Language Models in Code Execution with Fine-grained Multimodal Chain-of-Thought Reasoning [10.70881967278009]
ビジュアル制御フローグラフ (CFG) を用いたマルチモーダルチェイン・オブ・ワットスニペット (CoT) 推論を統合することで,コード推論を強化する,シンプルかつ効果的なアプローチである VisualCoder を導入する。
我々は,参照機構によるマルチモーダルCoT統合の課題に対処し,コードと実行経路の整合性を確保し,プログラム動作予測,エラー検出,出力生成の性能を向上させる。
論文 参考訳(メタデータ) (2024-10-30T19:07:01Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z) - CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution [36.30158138035512]
800のPython関数(3-13行)からなるベンチマークを示す。
各関数は入力出力対を持ち、入力予測と出力予測という2つの自然なタスクに繋がる。
単純なCoTと微調整方式によってベンチマークのパフォーマンスが向上するが、その解決には程遠いことを示す。
論文 参考訳(メタデータ) (2024-01-05T20:53:51Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and
Code Skeletons [5.564793925574796]
本稿では,大規模な事前学習型トランスを用いた自動デバッグ手法を提案する。
まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングすることから始めます。
次に、テストを実行できる10Kリポジトリに焦点を当て、テストをパスすることでカバーされるすべての関数のバグの多いバージョンを作成します。
論文 参考訳(メタデータ) (2021-05-19T18:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。