論文の概要: Orchard: An Open-Source Agentic Modeling Framework
- arxiv url: http://arxiv.org/abs/2605.15040v2
- Date: Thu, 21 May 2026 16:25:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.416157
- Title: Orchard: An Open-Source Agentic Modeling Framework
- Title(参考訳): Orchard: オープンソースのエージェントモデリングフレームワーク
- Authors: Baolin Peng, Wenlin Yao, Qianhui Wu, Hao Cheng, Xiao Yu, Rui Yang, Tao Ge, Alessandro Sordoni, Xingdi Yuan, Yelong Shen, Pengcheng He, Tong Zhang, Zhou Yu, Jianfeng Gao,
- Abstract要約: スケーラブルなエージェントモデリングのためのオープンソースのフレームワークOrchardを紹介します。
Orchard Envは、サンドボックスライフサイクル管理のための再利用可能なプリミティブを提供する軽量環境サービスである。
Orchard Envの上に、3つのエージェントモデリングレシピを構築します。
- 参考スコア(独自算出の注目度): 124.68499958175111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic modeling aims to transform LLMs into autonomous agents capable of solving complex tasks through planning, reasoning, tool use, and multi-turn interaction with environments. Despite major investment, open research remains constrained by infrastructure and training gaps. Many high-performing systems rely on proprietary codebases, models, or services, while most open-source frameworks focus on orchestration and evaluation rather than scalable agent training. We present Orchard, an open-source framework for scalable agentic modeling. At its core is Orchard Env, a lightweight environment service providing reusable primitives for sandbox lifecycle management across task domains, agent harnesses, and pipeline stages. On top of Orchard Env, we build three agentic modeling recipes. Orchard-SWE targets coding agents. We distill 107K trajectories from MiniMax-M2.5 and Qwen3.5-397B, introduce credit-assignment SFT to learn from productive segments of unresolved trajectories, and apply Balanced Adaptive Rollout for RL. Starting from Qwen3-30B-A3B-Thinking, Orchard-SWE achieves 64.3% on SWE-bench Verified after SFT and 67.5% after SFT+RL, setting a new state of the art among open-source models of comparable size. Orchard-GUI trains a 4B vision-language computer-use agent using only 0.4K distilled trajectories and 2.2K open-ended tasks. It achieves 74.1%, 67.0%, and 64.0% success rates on WebVoyager, Online-Mind2Web, and DeepShop, respectively, making it the strongest open-source model while remaining competitive with proprietary systems. Orchard-Claw targets personal assistant agents. Trained with only 0.2K synthetic tasks, it achieves 59.6% pass@3 on Claw-Eval and 73.9% when paired with a stronger ZeroClaw harness. Collectively, these results show that a lightweight, open, harness-agnostic environment layer enables reusable agentic data, training recipes, and evaluations across domains.
- Abstract(参考訳): エージェントモデリングは、LLMを計画、推論、ツールの使用、環境とのマルチターンインタラクションを通じて複雑なタスクを解決できる自律エージェントに変換することを目的としている。
大きな投資にもかかわらず、オープンリサーチはインフラとトレーニングのギャップによって制約されている。
多くのハイパフォーマンスなシステムはプロプライエタリなコードベースやモデル、サービスに依存していますが、ほとんどのオープンソースフレームワークは、スケーラブルなエージェントトレーニングではなく、オーケストレーションと評価に重点を置いています。
スケーラブルなエージェントモデリングのためのオープンソースのフレームワークOrchardを紹介します。
Orchard Envは、タスクドメイン、エージェントハーネス、パイプラインステージにわたるサンドボックスライフサイクル管理のための再利用可能なプリミティブを提供する軽量環境サービスである。
Orchard Envの上に、3つのエージェントモデリングレシピを構築します。
Orchard-SWEはコーディングエージェントをターゲットにしている。
我々は,MiniMax-M2.5およびQwen3.5-397Bから107Kトラジェクトリを蒸留し,未解決トラジェクトリの生産性セグメントから学習するためのクレジット割り当てSFTを導入し,RLに平衡適応ロールアウトを適用した。
Qwen3-30B-A3B-Thinkingを皮切りに、Orchard-SWEはSFT+RL以降のSWE-benchで64.3%、SFT+RL以降の67.5%を達成した。
Orchard-GUIは、0.4Kの蒸留軌道と2.2Kのオープンエンドタスクのみを使用して、4B視覚言語コンピュータ使用エージェントを訓練する。
WebVoyager、Online-Mind2Web、DeepShopでそれぞれ74.1%、67.0%、64.0%の成功率を達成した。
Orchard-Clawはパーソナルアシスタントエージェントをターゲットにしている。
わずか0.2Kの合成タスクで訓練され、より強力なZeroClawハーネスと組み合わせると、Claw-Evalで59.6%のpass@3、73.9%を達成した。
これらの結果は、軽量でオープンでハーネスに依存しない環境層が、再利用可能なエージェントデータ、レシピのトレーニング、ドメイン間の評価を可能にすることを示している。
関連論文リスト
- Yet Even Less Is Even Better For Agentic, Reasoning, and Coding LLMs [28.672417618778976]
効果的なソフトウェアエンジニアリングエージェントの訓練には、大量のタスク固有の軌道が必要である。
より少ないが高品質な訓練軌道で優れたエージェント能力を実現するエンドツーエンドのトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-01T12:33:25Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Efficient Multi-Model Orchestration for Self-Hosted Large Language Models [2.3275796286410677]
Pick and Spinは、セルフホストのオーケストレーションと経済性を実現するフレームワークである。
統合されたHelmベースのデプロイメントシステム、適応型スケールツーゼロ自動化、ハイブリッドルーティングモジュールを統合している。
最大21.6%の成功率、30%のレイテンシ、クエリ毎のコストの33%削減を実現している。
論文 参考訳(メタデータ) (2025-12-26T22:42:40Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - app.build: A Production Framework for Scaling Agentic Prompt-to-App Generation with Environment Scaffolding [0.09198412216120845]
我々は,LLMベースのアプリケーション生成を改善するオープンソースフレームワークであるapp.buildについて,体系的な検証と構造化環境を通じて紹介する。
このアプローチでは,3つの参照スタックにまたがって実装された多層検証パイプライン,スタック固有のオーケストレーション,モデルに依存しないアーキテクチャを組み合わせる。
本研究では, 包括的検証が73.3%, 30%が完全品質を達成し, オープンウェイトモデルが80.8%のクローズドモデル性能を達成していることを示す。
論文 参考訳(メタデータ) (2025-09-03T13:41:45Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。