論文の概要: KISS Sorcar: A Stupidly-Simple General-Purpose and Software Engineering AI Assistant
- arxiv url: http://arxiv.org/abs/2604.23822v1
- Date: Sun, 26 Apr 2026 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.575002
- Title: KISS Sorcar: A Stupidly-Simple General-Purpose and Software Engineering AI Assistant
- Title(参考訳): KISS Sorcar: シンプルで汎用なソフトウェアエンジニアリングAIアシスタント
- Authors: Koushik Sen,
- Abstract要約: KISS Sorcarは、KISS Agent Framework上に構築された汎用アシスタントおよび統合開発環境である。
KISS Sorcarは無償のオープンソースVisual Studio Codeエクステンションで、ローカルで、長期タスクに対して効果的に実行される。
システム全体が4.5ヶ月で自力で構築され、継続的ストレステストが実施され、エージェントが導入したバグが直ちに機能する能力が損なわれる。
- 参考スコア(独自算出の注目度): 8.273738980475393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can generate code and call tools with remarkable fluency, yet deploying them as practical software engineering assistants still expose stubborn gaps: finite context windows, single mistakes that derail entire sessions, agents that get stuck in dead ends, AI slop, and generated changes that are difficult to review or revert. We present KISS Sorcar, a general-purpose assistant and integrated development environment (IDE) built on top of the KISS Agent Framework, a stupidly-simple AI agent framework of roughly 1,850 lines of code. The framework addresses these gaps using a robust system prompt and through a five-layer agent hierarchy in which each layer adds exactly one concern: budget-tracked ReAct execution, automatic continuation across sub-sessions via summarization, coding, and browser tools with parallel sub-agents, persistent multi-turn chat with history recall, and git worktree isolation so every task runs on its own branch. To assess the power of the KISS agent framework, we implemented KISS Sorcar as a free, open-source Visual Studio Code extension that runs locally and effectively for long-horizon tasks, and supports browser automation, multimodal input, and Docker containers. In this research, we deliberately prioritize output quality over latency: giving a frontier model adequate time to validate its own output -- running linters, type checkers, and tests -- dramatically reduces the low-quality code that plagues faster but less thorough agents. The entire system was built using itself in 4.5 months, providing a continuous stress test in which any agent-introduced bug immediately impairs its own ability to work. On Terminal Bench 2.0, KISS Sorcar achieves a 62.2% overall pass rate with Claude Opus 4.6, comparing favorably to Claude Code (58%) and Cursor Composer 2 (61.7).
- Abstract(参考訳): 大きな言語モデルではコードを生成してツールを呼び出すことができるが、実践的なソフトウェアエンジニアリングアシスタントとしてそれらをデプロイすることは、いまだに頑丈なギャップを露呈している。有限コンテキストウィンドウ、セッション全体を遅延する単一ミス、デッドエンドに立ち往生するエージェント、AIのスロープ、レビューやリバージョンが難しい変更の生成。
我々は、KISS Agent Frameworkの上に構築された汎用アシスタントと統合開発環境(IDE)であるKISS Sorcarを紹介します。
このフレームワークは、堅牢なシステムプロンプトと、各レイヤが正確に1つの懸念を追加する5層エージェント階層を通じて、これらのギャップに対処する。予算追跡されたReAct実行、要約によるサブセッション間の自動継続、並列サブエージェントによるコーディング、履歴リコールによる永続的なマルチターンチャット、gitワークツリー分離などである。
KISSエージェントフレームワークのパワーを評価するために、KISS SorcarをフリーでオープンソースのVisual Studio Codeエクステンションとして実装しました。
この調査では、出力品質をレイテンシよりも意図的に優先順位付けしています。フロンティアモデルに、自身のアウトプット(リンタの実行、型チェッカー、テスト)を検証する十分な時間を与えることで、より高速で徹底的なエージェントを悩ませる低品質なコードを劇的に削減します。
システム全体が4.5ヶ月で自力で構築され、継続的ストレステストが実施され、エージェントが導入したバグが直ちに機能する能力が損なわれる。
ターミナル・ベンチ2.0では、KISSソルカーはクロード・コード(58%)とカーソル・コンポータ2(61.7)と比較して、クロード・オプス4.6で62.2%のパスレートを達成した。
関連論文リスト
- ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.73176261673471]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - Workstream: A Local-First Developer Command Center for the AI-Augmented Engineering Workflow [0.0]
プルリクエスト、タスク管理、カレンダ、AIによるコードレビュー、履歴レビューインテリジェンス、レポジトリAI対応スコアリング、エージェントオブザーバビリティを単一のインターフェースに集約する、オープンソースのローカルファーストの開発者コマンドセンタであるWorkstreamを紹介します。
システムアーキテクチャ、新しい5カテゴリAI準備度スコアリングアルゴリズム、チーム固有のパターンの歴史的PRレビューをマイニングするレビューインテリジェンスパイプライン、モデルコンテキストプロトコル(MCP)、エージェント・ツー・エージェント(A2A)、エージェント・オブザーバビリティ・プロトコル(AOP)を実装するエージェント・オブザーバビリティ・レイヤについて説明する。
論文 参考訳(メタデータ) (2026-04-18T16:24:29Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [41.038584732889895]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。
私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。
我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文 参考訳(メタデータ) (2024-01-14T18:12:03Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。