論文の概要: From Model Scaling to System Scaling: Scaling the Harness in Agentic AI
- arxiv url: http://arxiv.org/abs/2605.26112v1
- Date: Mon, 25 May 2026 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.660387
- Title: From Model Scaling to System Scaling: Scaling the Harness in Agentic AI
- Title(参考訳): モデルスケーリングからシステムスケーリングへ:エージェントAIのハーネスをスケール
- Authors: Shangding Gu,
- Abstract要約: 本稿では,エージェントAIの次なるボトルネックをシステムスケーリングとして検討する。
我々は、このシフトをハーネスのスケーリングと呼び、基礎モデルを取り巻く構造化された実行層を設計、評価、最適化の第一級のオブジェクトとして扱います。
私たちの主張では、エージェントAIの今後の進歩は、より強力な基礎モデルと同じくらい、システム設計に依存します。
- 参考スコア(独自算出の注目度): 4.802305157491253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the next major bottleneck in agentic AI as system scaling, not only model scaling: the design of auditable, persistent, modular, and verifiable architectures around foundation models. We refer to this shift as scaling the harness: treating the structured execution layer around a foundation model as a first-class object of design, evaluation, and optimization. Although recent large language models enable agents to use tools, retrieve information, maintain memory, and execute long-horizon workflows, evaluation remains largely model-centric, often reducing agents to final-task success while treating memory, retrieval, tool use, orchestration, verification, and governance as secondary implementation details. This framing is increasingly inadequate because agent performance emerges from the interaction among the foundation model, memory substrate, context constructor, skill-routing layer, orchestration loop, and verification-and-governance layer. Together, these components form the agent harness, which translates model capability into long-horizon agent behavior. We study scaling the harness through three core bottlenecks: context governance, trustworthy memory, and dynamic skill routing, together with the orchestration and governance mechanisms that coordinate and constrain them. We further outline a research agenda for harness-level benchmarks that go beyond one-shot task success to measure trajectory quality, memory hygiene, context efficiency, communication fidelity, verification cost, and safe evolution over time. To make the discussion concrete, we develop CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, a Python-native reference harness, and compare it with Claude Code and OpenClaw. Our main claim is that future progress in agentic AI will depend as much on system design as on stronger foundation models.
- Abstract(参考訳): 本稿では,エージェントAIの次なるボトルネックをシステムスケーリングとして検討し,モデルスケーリングだけでなく,基礎モデルを中心とした監査可能,永続的,モジュール的,検証可能なアーキテクチャの設計についても検討する。
基礎モデルを中心とした構造化実行層を設計、評価、最適化の第一級のオブジェクトとして扱います。
最近の大規模言語モデルは、エージェントがツールの使用、情報検索、メモリの保守、長期ワークフローの実行を可能にするが、評価はモデル中心であり、メモリ、検索、ツール使用、オーケストレーション、検証、ガバナンスを二次実装の詳細として扱うことで、エージェントを最終タスクの成功に還元することが多い。
このフレーミングは、ファンデーションモデル、メモリ基板、コンテキストコンストラクタ、スキルルーティング層、オーケストレーションループ、検証とガバナンス層間の相互作用からエージェントのパフォーマンスが現れるため、ますます不十分になっている。
これらのコンポーネントが組み合わさってエージェントハーネスを形成し、モデル能力をロングホライゾンエージェントの振る舞いに変換する。
私たちは、コンテキストガバナンス、信頼できるメモリ、動的スキルルーティングという3つのボトルネックを通じてハーネスのスケーリングと、それらを調整および制約するオーケストレーションとガバナンスのメカニズムを研究します。
さらに、軌道品質、メモリ衛生、文脈効率、通信の正確性、検証コスト、時間の経過とともに安全な進化を測定するために、1ショットのタスク成功を超えるハーネスレベルのベンチマークの研究課題について概説する。
議論を具体的にするために、私たちはCheetahClawsを開発した。 https://github.com/SafeRL-Lab/cheetahclaws。
私たちの主張では、エージェントAIの今後の進歩は、より強力な基礎モデルと同じくらい、システム設計に依存します。
関連論文リスト
- CogScale: Scalable Benchmark for Sequence Processing [1.8853398065417313]
新しいアーキテクチャをテストするには、しばしば大量のデータセットやモデルにスケールアップする必要がある。
特定の認知能力と記憶能力の分離と評価を目的とした14のスケーラブルな合成タスクのベンチマークであるCogScaleを提案する。
その結果,従来のRNNとEcho State Networksは厳格なパラメータ予算内で基本的保持を保ちながら,注目機構と最新の状態空間モデルのみが常に高い性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-05-19T12:32:52Z) - Code as Agent Harness [107.31925305395957]
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
論文 参考訳(メタデータ) (2026-05-18T17:59:03Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - El Agente Gráfico: Structured Execution Graphs for Scientific Agents [7.47895130442454]
タイプセーフな実行環境内に,大規模言語モデル(LLM)による意思決定を組み込んだ単一エージェントフレームワークであるEl Agente Grficoを紹介する。
我々のアプローチの中心は、科学概念の構造化された抽象化と、型付きPythonオブジェクトとして計算状態を表すオブジェクトグラフマッパーである。
大学レベルの量子化学タスクのスイートにまたがって,自動ベンチマークフレームワークを開発することにより,システムの評価を行う。
論文 参考訳(メタデータ) (2026-02-19T23:47:05Z) - Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Structured Cognitive Loop for Behavioral Intelligence in Large Language Model Agents [0.0]
既存のフレームワークは認知、記憶、制御をひとつのプロンプトで混ぜることが多く、一貫性と予測可能性を減らす。
構造化認知ループ (Structured Cognitive Loop, SCL) は、これらの機能を分離する代替アーキテクチャとして提案されている。
SCLの平均タスク成功率は86.3%であり、ベースラインは70.5から76.8%である。
論文 参考訳(メタデータ) (2025-09-23T17:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。