論文の概要: MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
- arxiv url: http://arxiv.org/abs/2605.22794v2
- Date: Sat, 23 May 2026 13:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.972191
- Title: MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems
- Title(参考訳): MOSS: 自律エージェントシステムにおけるソースレベル書き換えによる自己進化
- Authors: Qianshu Cai, Yonggang Zhang, Xianzhang Jia, Huajiang Zheng, Wei Xue, Jun Song, Xinmei Tian, Yike Guo,
- Abstract要約: MOSSは、生産エージェント基板上でソースレベルで自己書き換えを行うシステムである。
平均成績は0.25から0.61に上昇し、人間の介入なしに1サイクルで上昇する。
- 参考スコア(独自算出の注目度): 36.221246203666745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.
- Abstract(参考訳): 自動エージェントシステムは、デプロイ後に大部分が静的である – ユーザインタラクションから学ばず、次のヒューマン駆動更新が修正されるまで、繰り返し発生する障害は継続する。
自己進化型エージェントが応答して現れたが、すべての変更可能なアーティファクト – スキルファイル、プロンプト構成、メモリスキーマ、ワークフローグラフ – への進化を限定し、エージェントは未対応のままにしておく。
ルーティング、フック順序、状態不変性、ディスパッチは、どんなテキストアーティファクトよりもコードで生きていくため、構造的障害のクラス全体がテキスト層から物理的に到達できない。
ソースレベルの適応は基本的には一般的な媒体であり、すべてのテキスト変更可能なスコープの厳密なスーパーセットであるチューリング完全であり、ベースモデルコンプライアンスよりも決定論的に効果を発揮でき、長いコンテキストドリフトの下ではエローディングしない。
生産エージェント基板上でソースレベルで自己書き換えを行うシステムであるMOSSについて述べる。
コード修正はプラガブルな外部コーディングエージェントCLIに委譲され、MOSSはステージの順序と検証を保持する。
候補画像に対して、一時的トライアル作業者のバッチをリプレイして検証し、その後、ユーザコンテンツ付きインプレースコンテナスワップとヘルスプロブ付きロールバックでプロモートする。
OpenClawでは、MOSSは人間の介入なしに1サイクルで4タスクの平均グレーダースコアを0.25から0.61に引き上げている。
関連論文リスト
- TacoMAS: Test-Time Co-Evolution of Topology and Capability in LLM-based Multi-Agent Systems [55.81570336226014]
動的マルチエージェントシステムのためのテスト時間共進化フレームワークであるTacoMASを紹介する。
TacoMASはMAS推論をオンライングラフ適応のタスクとして定式化し、ノードは役割固有の能力を持つエージェントを表し、エッジはその通信トポロジを定義する。
4つのベンチマークの実験では、TacoMASは20近いマルチエージェントベースラインを上回り、最強ベースラインよりも平均13.3%向上した。
論文 参考訳(メタデータ) (2026-05-10T13:52:00Z) - From Agent Loops to Deterministic Graphs: Execution Lineage for Reproducible AI-Native Work [0.10312968200748114]
本稿では,AIネイティブな作業が人工物生成計算の有向非巡回グラフ(DAG)として表現される実行モデルを提案する。
制御された2つのポリシーメモ更新タスクにおいて、ループ中心の更新ベースラインに対する実行行リプレイを比較した。
論文 参考訳(メタデータ) (2026-05-07T14:39:37Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Scaling Human-AI Coding Collaboration Requires a Governable Consensus Layer [22.42181408084751]
ビブコーディングは正確で実行可能なコードを高速に生成するが、構造的なコミットメントや依存関係、証拠の記録は残っていない。
本稿では,操作可能な世界モデルであるコンセンサス層Cが,エンジニアリングの主要な成果物としてコードを置き換えるパラダイムであるエージェント・コンセンサスを提案する。
本稿では,チャットによるベースラインと比較して,コンセンサスに基づく人間の介入を減らすかどうかを測定するためのベンチマークタスクファミリーを提案する。
論文 参考訳(メタデータ) (2026-04-20T06:53:32Z) - Autogenesis: A Self-Evolving Agent Protocol [60.15939127351914]
本稿では,自己進化プロトコルであるAutogenesis Protocol(AGP)を紹介する。
本稿では,実行中のプロトコル登録リソースを動的にインスタンス化し,検索し,精錬する自己進化型マルチエージェントシステムAGSを提案する。
論文 参考訳(メタデータ) (2026-04-16T14:04:06Z) - Springdrift: An Auditable Persistent Runtime for LLM Agents with Case-Based Memory, Normative Safety, and Ambient Self-Perception [0.20305676256390928]
本稿では、長期LLMエージェントの永続ランタイムであるSpringdriftを紹介する。
我々は,このカテゴリに人工リテーナという用語を導入する。
これは、システム設計とデプロイメントのケーススタディに関する技術的なレポートであり、ベンチマークによる評価ではない。
論文 参考訳(メタデータ) (2026-04-06T13:14:37Z) - OrgForge: A Multi-Agent Simulation Framework for Verifiable Synthetic Corporate Corpora [0.0]
本稿では,厳密な物理認識境界を強制するオープンソースのマルチエージェントシミュレーションフレームワークOrgForgeを紹介する。
アクターローカルクロックは、すべてのアーティファクトタイプにわたって因果タイムスタンプの正しさを強制する。
N日間のシミュレーションを実行すると、OrgForgeはインターリーブされたSlackスレッド、チケット、Confluenceページ、Gitのプルリクエスト、Eメールを生成する。
論文 参考訳(メタデータ) (2026-03-16T09:02:24Z) - SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。
エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。
textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。
本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文 参考訳(メタデータ) (2025-12-17T12:25:05Z) - SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。