論文の概要: PatchBoard: Schema-Grounded State Mutation for Reliable and Auditable LLM Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2605.29313v1
- Date: Thu, 28 May 2026 03:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.644154
- Title: PatchBoard: Schema-Grounded State Mutation for Reliable and Auditable LLM Multi-Agent Collaboration
- Title(参考訳): PatchBoard: 信頼性と可聴性を考慮したマルチエージェント協調のためのスキーマ付き状態変異
- Authors: Shuyu Zhang, Yaqi Shi, Lu Wang,
- Abstract要約: PatchBoardは、エージェント間の対話を、共有された構造化状態上で検証されたパッチ突然変異に置き換える。
630回にマッチしたALFWorldでは、PatchBoardが84.6%、LangGraphが30.8%、Flockが61.6%だった。
- 参考スコア(独自算出の注目度): 3.8505794516260337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM multi-agent systems often coordinate through natural-language dialogue or loosely structured shared memory, making intermediate state difficult to validate, attribute, and audit. We introduce PatchBoard, a schema-grounded collaboration architecture that replaces inter-agent dialogue with validated JSON Patch mutations over a shared structured state. An Architect agent constructs a task-specific schema and workflow rules, while a deterministic kernel validates each proposed state mutation against schema constraints, role-specific write contracts, and runtime invariants before committing it transactionally. On 630 matched ALFWorld episodes, PatchBoard achieves an 84.6% success rate, compared with 30.8% for LangGraph and 61.6% for Flock, while reducing tokens per successful task to 45.5k, compared with 368.3k and 64.2k, respectively.
- Abstract(参考訳): LLMマルチエージェントシステムは、自然言語対話やゆるやかに構造化された共有メモリを通じてコーディネートすることが多く、中間状態の検証、属性、監査が難しい。
PatchBoardは、アジェント間対話を、共有された構造化状態上で検証されたJSON Patch変異に置き換える、スキーマ基底のコラボレーションアーキテクチャである。
アーキテクトエージェントはタスク固有のスキーマとワークフロールールを構築し、決定論的カーネルは、スキーマ制約、ロール固有の書き込み契約、ランタイム不変量に対して提案された各状態の突然変異をトランザクション的にコミットする前に検証する。
630のALFWorldのエピソードでは、PatchBoardは成功率84.6%、LangGraphは30.8%、Flockは61.6%、成功率45.5k、それぞれ368.3k、64.2kとなっている。
関連論文リスト
- Converted, Not Equivalent: Benchmarking Codebase Conversion via Observational Equivalence [56.25095230687242]
コーディングエージェントは、しばしば自身のローカル検証ルーチンを過度に信頼し、表面チェックを満たすアーティファクトの成功を宣言する。
この問題は、事前評価が結果駆動である変換において特に深刻である。
ブラインド・コンバージョンは26.7-28.9%に達し、スペック・パスレートは91.1%まで上昇した。
このことは、失敗は限られた予算やバックボーンの強さよりも、契約ミスによる自己検証に起因していることを示唆している。
論文 参考訳(メタデータ) (2026-05-27T19:57:15Z) - TraceFix: Repairing Agent Coordination Protocols with TLA+ Counterexamples [3.8706622179041745]
TraceFixは、LLM(Large Language Model)マルチエージェント調整のための検証ファーストパイプラインである。
エージェントは、タスク記述から構造化中間表現(IR)としてプロトコルトポロジを合成する。
さらに,TLA+モデルチェッカー(TLC)の逆例を用いて,検証が成功するまでプロトコルを反復的に修復する。
論文 参考訳(メタデータ) (2026-05-08T16:05:31Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration [0.0]
MAGEのようなマルチエージェントのアプローチはVerilogEvalでは95.9%に達したが、厳しい産業ベンチマークではテストされていない。
本稿では,シンボリック・ニューラル推論と適応型マルチエージェントオーケストレーションを組み合わせた自動RTL生成フレームワークChipCraftBrainを提案する。
論文 参考訳(メタデータ) (2026-04-21T17:20:24Z) - CODESTRUCT: Code Agents over Structured Action Spaces [14.039220358416104]
LLMベースのコードエージェントは、リポジトリを非構造化テキストとして扱い、脆いマッチング文字列を通じて編集を適用する。
我々は、エージェントがテキストスパンではなく名前付きASTエンティティを操作するような構造化されたアクション空間として再フレーミングを提案する。
私たちのフレームワークであるCODESTRUCTは、完全な構文単位を取得するためのreadCodeと、構文検証された変換をセマンティックプログラム要素に適用するためのEditCodeを提供します。
論文 参考訳(メタデータ) (2026-04-07T03:58:10Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - A Simple Language Model for Task-Oriented Dialogue [61.84084939472287]
SimpleTODはタスク指向対話に対する単純なアプローチであり、すべてのサブタスクのリキャストで訓練された単一因果言語モデルを単一シーケンス予測問題として利用する。
これによりSimpleTODは、事前訓練されたオープンドメイン、GPT-2のような因果言語モデルからのトランスファー学習を完全に活用できる。
論文 参考訳(メタデータ) (2020-05-02T11:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。