論文の概要: Lita: Light Agent Uncovers the Agentic Coding Capabilities of LLMs
- arxiv url: http://arxiv.org/abs/2509.25873v1
- Date: Tue, 30 Sep 2025 07:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.462966
- Title: Lita: Light Agent Uncovers the Agentic Coding Capabilities of LLMs
- Title(参考訳): LLMのエージェント・コーディング能力、ライト・エージェントが発見
- Authors: Hankun Dai, Maoquan Wang, Mengnan Qi, Yikai Zhang, Zijian Jin, Yongqiang Yao, Yufan Huang, Shengyu Fu, Elsie Nallipogu,
- Abstract要約: 完全自律エージェントの本質的要素を維持しつつ手動設計を最小化するための原則である、エレガントさを運用するLitaを紹介する。
Aider PolyglotとSWE-Benchをフロンティアモデルで実験したところ、Litaはワークフローベースのベースラインやエージェントベースのベースラインと比較して、競争力や優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 8.104616255794323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being applied to programming tasks, ranging from single-turn code completion to autonomous agents. Current code agent designs frequently depend on complex, hand-crafted workflows and tool sets. However, this reliance on elaborate scaffolding presents several challenges: agent performance becomes overly dependent on prompt tuning and custom design choices, heavy human intervention obscures a model's true underlying capabilities, and intricate pipelines are costly to build and maintain. Furthermore, optimizing complex task prompts increases the risk of data leakage. Currently, when introducing new models, LLM providers like OpenAI and Anthropic often publish benchmark scores to demonstrate their models' coding proficiency, but keep their proprietary evaluation frameworks confidential. To address these limitations, we introduce Lita (Lite Agent), which operationalizes liteness, a principle of minimizing manual design while retaining the essential elements of a fully autonomous agent. Lita enables a more faithful and unified evaluation without elaborate scaffolding. Experiments on the Aider Polyglot and SWE-Bench with frontier models demonstrate that Lita achieves competitive or superior performance compared to workflow-based and agentic baselines. Crucially, Lita also consumes fewer tokens and requires significantly less design effort. Our results suggest that Lita is sufficient to reveal the underlying coding competence of modern LLMs. Finally, we propose the Agent Complexity Law: the performance gap between agents of varying complexity, from simple to sophisticated designs, will shrink as the core model improves, ultimately converging to a negligible difference.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シングルターンコード補完から自律エージェントまで、プログラミングタスクにますます適用されている。
現在のコードエージェントの設計は、複雑で手作りのワークフローやツールセットに依存することが多い。
エージェントのパフォーマンスは、迅速なチューニングとカスタムデザインの選択に過度に依存するようになり、重い人間の介入は、モデルの真の基盤となる能力を曖昧にし、複雑なパイプラインを構築し維持するのにコストがかかります。
さらに、複雑なタスクの最適化は、データ漏洩のリスクを高める。
現在、新しいモデルを導入する際、OpenAIやAnthropicのようなLLMプロバイダは、モデルのコーディング能力を示すベンチマークスコアをしばしば公開しているが、プロプライエタリな評価フレームワークは秘密にしている。
これらの制約に対処するため,完全自律エージェントの本質的要素を維持しつつ手動設計を最小化するリタ(ライトエージェント)を導入する。
Litaは、精巧な足場なしでより忠実で統一された評価を可能にする。
Aider PolyglotとSWE-Benchをフロンティアモデルで実験したところ、Litaはワークフローベースのベースラインやエージェントベースのベースラインと比較して、競争力や優れたパフォーマンスを実現している。
重要な点として、Litaはトークンの消費を減らし、設計の労力を大幅に削減する。
この結果から,現代のLLMのコーディング能力を明らかにするには,Litaが十分であることが示唆された。
最後に,エージェント複雑度法(Agen Complexity Law)を提案する。 単純な設計から洗練された設計まで,さまざまな複雑度を持つエージェントのパフォーマンスギャップは,コアモデルの改善に伴って縮小し,最終的には無視可能な相違へと収束する。
関連論文リスト
- Global Constraint LLM Agents for Text-to-Model Translation [12.20235137210144]
最適化や満足度問題に関する自然言語の記述は、正しいMiniZincモデルに変換するのが困難である。
この課題に対処するフレームワークをエージェント的アプローチで導入する。
論文 参考訳(メタデータ) (2025-09-10T20:04:20Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。
模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。
RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文 参考訳(メタデータ) (2025-03-03T12:54:54Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。
現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。
エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T17:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。