論文の概要: Git Context Controller: Manage the Context of LLM-based Agents like Git
- arxiv url: http://arxiv.org/abs/2508.00031v1
- Date: Wed, 30 Jul 2025 08:01:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.59069
- Title: Git Context Controller: Manage the Context of LLM-based Agents like Git
- Title(参考訳): Git Context Controller: GitのようなLLMベースのエージェントのコンテキストを管理する
- Authors: Junde Wu,
- Abstract要約: 大きな言語モデル(LLM)ベースのエージェントは、内部推論と外部ツールの使用をインターリーブすることによって、印象的な機能を示している。
ソフトウェアバージョン管理システムにインスパイアされた構造化コンテキスト管理フレームワークであるGit-Context-Controller(GCC)を紹介した。
自己複製のケーススタディでは、GCCを増強したエージェントが新しいCLIエージェントをスクラッチから作り、40.7タスクの解決を実現した。
- 参考スコア(独自算出の注目度): 6.521644491529639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) based agents have shown impressive capabilities by interleaving internal reasoning with external tool use. However, as these agents are deployed in long-horizon workflows, such as coding for a big, long-term project, context management becomes a critical bottleneck. We introduce Git-Context-Controller (GCC), a structured context management framework inspired by software version control systems. GCC elevates context as versioned memory hierarchy like Git. It structures agent memory as a persistent file system with explicit operations: COMMIT, BRANCH, MERGE, and CONTEXT, enabling milestone-based checkpointing, exploration of alternative plans, and structured reflection. Our approach empowers agents to manage long-term goals, isolate architectural experiments, and recover or hand off memory across sessions and agents. Empirically, agents equipped with GCC achieve state-of-the-art performance on the SWE-Bench-Lite benchmark, resolving 48.00 of software bugs, outperforming 26 competitive systems. In a self-replication case study, a GCC-augmented agent builds a new CLI agent from scratch, achieving 40.7 task resolution, compared to only 11.7 without GCC. The code is released at: https://github.com/theworldofagents/GCC
- Abstract(参考訳): 大きな言語モデル(LLM)ベースのエージェントは、内部推論と外部ツールの使用をインターリーブすることによって、印象的な機能を示している。
しかし、これらのエージェントは大規模な長期プロジェクトのためのコーディングのような長期ワークフローにデプロイされるため、コンテキスト管理は重大なボトルネックとなる。
ソフトウェアバージョン管理システムにインスパイアされた構造化コンテキスト管理フレームワークであるGit-Context-Controller(GCC)を紹介する。
GCCは、Gitのようなバージョン管理されたメモリ階層としてコンテキストを上昇させる。
COMMIT、BRANCH、MERGE、CONTEXTといった明示的な操作でエージェントメモリを永続ファイルシステムとして構成し、マイルストーンベースのチェックポイント、代替プランの探索、構造化リフレクションを可能にする。
我々のアプローチは、エージェントが長期的な目標を管理し、アーキテクチャ実験を分離し、セッションやエージェントをまたいでメモリを復元または引き渡すことを可能にします。
GCCを搭載したエージェントは、SWE-Bench-Liteベンチマークで最先端のパフォーマンスを達成し、48.00のソフトウェアバグを解決し、26の競合システムを上回った。
自己複製のケーススタディでは、GCCを増強したエージェントが新しいCLIエージェントをスクラッチから作り、40.7タスクの解決を実現した。
コードは、https://github.com/theworldofagents/GCCでリリースされる。
関連論文リスト
- GREPO: A Benchmark for Graph Neural Networks on Repository-Level Bug Localization [50.009407518866965]
リポジトリレベルのバグローカライゼーションは、ソフトウェアエンジニアリングの重要な課題です。
GNNは、複雑なリポジトリ全体の依存関係をモデル化できるため、有望な代替手段を提供する。
GREPOは、リポジトリスケールのバグローカライゼーションタスクのための最初のGNNベンチマークである。
論文 参考訳(メタデータ) (2026-02-14T23:22:15Z) - Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents [53.03492387564392]
我々はFS-Researcherを紹介した。FS-Researcherはファイルシステムベースのフレームワークで、永続的なワークスペースを通じてコンテキストウィンドウを超えて深い研究をスケールする。
Context Builderエージェントはインターネットを閲覧し、構造化されたノートを書き、ソースを階層的な知識ベースにアーカイブする。
その後、レポートライターエージェントが最終レポートセクションをセクションごとに構成し、知識ベースを事実のソースとして扱う。
論文 参考訳(メタデータ) (2026-02-02T03:00:19Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Repository Intelligence Graph: Deterministic Architectural Map for LLM Code Assistants [0.0]
リポジトリを意識したコーディングエージェントは、しばしばビルドとテストの構造を回復するのに苦労する。
私たちは、ビルド可能なコンポーネント、アグリゲータ、ランナー、テスト、外部パッケージ、パッケージマネージャを表す決定論的、エビデンスを背景としたアーキテクチャマップであるRepository Intelligence Graph(RIG)を紹介します。
Claude Code、Cursor、Codexの3つの商用エージェントを、現実世界のMetaFFIプロジェクトを含む、低から高ビルドの複雑さにまたがる8つのリポジトリで評価します。
論文 参考訳(メタデータ) (2026-01-15T06:42:45Z) - InfiAgent: An Infinite-Horizon Framework for General-Purpose Autonomous Agents [36.740230738304525]
InfiAgentは、タスクの持続時間に関係なく、エージェントの推論コンテキストを厳密に拘束する。
20Bのオープンソースモデルを持つInfiAgentは、より大きなプロプライエタリなシステムと競合する。
論文 参考訳(メタデータ) (2026-01-06T17:35:57Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - AgentGit: A Version Control Framework for Reliable and Scalable LLM-Powered Multi-Agent Systems [7.408263799616532]
AgentGitはGitライクなロールバックとブランチをマルチエージェントシステム(MAS)にもたらすフレームワークです。
AgentGitは冗長、ランタイム、トークンの使用を著しく削減し、複数のブランチをまたいだ並列探索をサポートしています。
この作業は、より堅牢なMAS設計への実践的なパスを提供し、コラボレーティブAIシステムにおけるエラー回復、安全な探索、計算、A/Bテストを可能にする。
論文 参考訳(メタデータ) (2025-11-01T17:11:31Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - Improving Code Localization with Repository Memory [33.423769985220005]
本稿では,最近の過去のコミットや関連問題を含む非パラメトリックメモリからエージェントを検索するツールを紹介する。
このようなメモリの拡張により,最先端のローカライゼーションフレームワークであるLocAgentが大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-10-01T15:10:15Z) - Meta-RAG on Large Codebases Using Code Summarization [11.415083231118142]
大規模言語モデル(LLM)システムは、様々な領域における応用人工知能(AI)研究の最前線にある。
本稿では,情報検索とLLMを用いた大規模既存システムにおけるバグのローカライズを行うマルチエージェントシステムを提案する。
そこでは,要約を利用して79.8%の縮合を行い,コンパクトで構造化された自然言語表現を実現する。
論文 参考訳(メタデータ) (2025-08-04T17:01:10Z) - LLM-Driven Collaborative Model for Untangling Commits via Explicit and Implicit Dependency Reasoning [20.147009997147798]
コミット回避のための新しいコラボレーティブコンサルテーションフレームワークであるColaUntangleを提案する。
ColaUntangleは、LLM(Large Language Model)駆動エージェントをマルチエージェントアーキテクチャに統合する。
我々は,マルチバージョンプログラム依存グラフ(delta-PDG)を構築し,エージェントが記号深度と意味深度の両方でコード関係を推論できるようにする。
論文 参考訳(メタデータ) (2025-07-22T09:42:13Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving [9.477917878478188]
RepoMasterは、複雑なタスクを解決するためにGitHubリポジトリを探索、再利用するために設計された、自律的なエージェントフレームワークである。
RepoMasterは関数呼び出しグラフ、モジュール依存グラフ、階層的なコードツリーを構築し、必須コンポーネントを特定する。
新たにリリースしたGitTaskBenchでは、RepoMasterがタスクパス率を24.1%から62.9%に引き上げ、トークン使用率を95%削減しました。
論文 参考訳(メタデータ) (2025-05-27T08:35:05Z) - LocAgent: Graph-Guided LLM Agents for Code Localization [25.395102705800916]
LocAgentは、グラフベースの表現を通じてコードのローカライゼーションに対処するフレームワークである。
細調整したQwen-2.5-Coder-Instruct-32Bモデルを用いて,SOTAプロプライエタリモデルと比較して,コストを大幅に削減した。
論文 参考訳(メタデータ) (2025-03-12T05:55:01Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。
提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。
Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。