論文の概要: Forage V2: Knowledge Evolution and Transfer in Autonomous Agent Organizations
- arxiv url: http://arxiv.org/abs/2604.19837v1
- Date: Tue, 21 Apr 2026 08:14:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.637121
- Title: Forage V2: Knowledge Evolution and Transfer in Autonomous Agent Organizations
- Title(参考訳): Forage V2: 自律エージェント組織における知識の進化と伝達
- Authors: Huaqing Xie,
- Abstract要約: 我々は,ランニング,モデル機能間の移動,知識劣化防止のための制度的安全対策などを通じて,経験が蓄積されることを示す。
3つのタスクタイプ(Webスクレイピング、APIクエリ、数学的推論)にまたがる2つのクレームを実証する。
強いエージェント(オプス)の知識でシードされた弱いエージェント(ソネット)は6.6ppのカバレッジギャップを1.1ppに狭め、ハーフコスト(9.40〜5.13 USD)を半ラウンド(平均4.5対7.0)に収束させ、3つの独立したシードランはちょうど同じ分母推定(266)に到達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous agents operating in open-world tasks -- where the completion boundary is not given in advance -- face denominator blindness: they systematically underestimate the scope of the target space. Forage V1 addressed this through co-evolving evaluation (an independent Evaluator discovers what "complete" means) and method isolation (Evaluator and Planner cannot see each other's code). V2 extends the architecture from a single expedition to a learning organization: experience accumulates across runs, transfers across model capabilities, and institutional safeguards prevent knowledge degradation. We demonstrate two claims across three task types (web scraping, API queries, mathematical reasoning). Knowledge accumulation: over six runs, knowledge entries grow from 0 to 54, and denominator estimates stabilize as domain understanding deepens. Knowledge transfer: a weaker agent (Sonnet) seeded with a stronger agent's (Opus) knowledge narrows a 6.6pp coverage gap to 1.1pp, halves cost (9.40 to 5.13 USD), converges in half the rounds (mean 4.5 vs. 7.0), and three independent seeded runs arrive at exactly the same denominator estimate (266), suggesting organizational knowledge calibrates evaluation itself. V2's contribution is architectural: it designs institutions -- audit separation, contract protocols, organizational memory -- that make any agent more reliable upon entry. The accumulated experience is organizational, model-agnostic, and transferable, stored as readable documents that any future agent inherits regardless of provider or capability level.
- Abstract(参考訳): オープンワールドタスクで運用される自律エージェント – 完了境界が事前に与えられていない – は、対象空間の範囲を体系的に過小評価する、分母の盲目に直面している。
Forage V1はこれを、共同進化的な評価(独立した評価器が“完全”の意味を発見する)とメソッド分離(評価器とプランナーはお互いのコードを見ることができない)を通じて解決する。
V2は、単一の探索から学習組織へのアーキテクチャの拡張 – 実行中に蓄積された経験、モデル能力間での転送、知識の劣化防止のための機関的保護 – だ。
3つのタスクタイプ(Webスクレイピング、APIクエリ、数学的推論)にまたがる2つのクレームを実証する。
知識蓄積:6回の実行で、知識エントリは0から54に増加し、ドメイン理解が深まるにつれて、分母推定は安定化する。
知識伝達:弱いエージェント(ソネット)が強いエージェント(オプス)の知識でシードされ、6.6ppのカバレッジギャップが1.1ppに狭まり、ハーフコスト(9.40から5.13 USD)が半ラウンド(平均4.5対7.0)に収束し、3つの独立したシードランが全く同じ分母推定(266)に到達し、組織的知識が評価を行う。
V2のコントリビューションはアーキテクチャであり、監査分離、契約プロトコル、組織記憶など、あらゆるエージェントをエントリー時により信頼できるものにする機構を設計する。
蓄積されたエクスペリエンスは、組織的で、モデルに依存し、転送可能であり、将来のエージェントがプロバイダや能力レベルに関係なく継承する可読性のあるドキュメントとして格納されます。
関連論文リスト
- Context Kubernetes: Declarative Orchestration of Enterprise Knowledge for Agentic AI Systems [0.0]
エージェントAIシステムにおけるエンタープライズ知識のオーケストレーションのためのアーキテクチャであるContextを紹介する。
本稿では,6つのコア抽象化,知識アーキテクチャ・アズ・コードのためのYAMLマニフェスト,和解ループ,3層エージェントパーミッションモデルについて定式化する。
コンテキストオーケストレーションをコンテナオーケストレーションよりも難しくする4つのプロパティを特定します。
論文 参考訳(メタデータ) (2026-04-13T15:35:55Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - ElephantBroker: A Knowledge-Grounded Cognitive Runtime for Trustworthy AI Agents [45.88028371034407]
ElephantBrokerはオープンソースの認知ランタイムで、Neo4jナレッジグラフとQdrantベクトルストアを統合する。
このシステムは、ハイブリッド5ソース検索パイプラインからなる完全な認知ループ(ストア、検索、スコア、構成、保護、学習)を実装している。
論文 参考訳(メタデータ) (2026-03-26T07:03:12Z) - Governing Dynamic Capabilities: Cryptographic Binding and Reproducibility Verification for AI Agent Tool Use [0.0]
既存のセキュリティレイヤでは、AIエージェントに何ができるか、それが主張するものを実行したのか、マルチエージェントインタラクションで何が起きたのかを検証できない。
既存のフレームワークはこれら2つを詳述し、サイレントな能力のエスカレーションを可能にし、検証済みの証明なしに相互作用を残す。
我々は3つのエージェントガバナンス要件を導出する:能力の完全性(G1)、行動の妥当性(G2)、相互作用監査性(G3)。
基本(Ed25519, SHA-256; 97 us verify)と拡張(BBS+選択開示、Groth16 DV-SNARK; 13.8 ms)の2つの暗号に依存しないインスタンス化で検証する。
論文 参考訳(メタデータ) (2026-03-15T11:46:57Z) - Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? [10.248746359119625]
EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
論文 参考訳(メタデータ) (2026-03-11T14:07:16Z) - What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。
Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。
我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文 参考訳(メタデータ) (2025-07-08T17:59:22Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。