論文の概要: ARE: Scaling Up Agent Environments and Evaluations
- arxiv url: http://arxiv.org/abs/2509.17158v1
- Date: Sun, 21 Sep 2025 16:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.139917
- Title: ARE: Scaling Up Agent Environments and Evaluations
- Title(参考訳): ARE: エージェント環境のスケールアップと評価
- Authors: Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Romain Froger, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Grégoire Mialon, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Thomas Scialom, Vladislav Vorotilov, Mengjue Wang, Ian Yu,
- Abstract要約: 本稿では,スケーラブルな環境構築のための研究プラットフォームであるMeta Agents Research Environments (ARE)を紹介する。
AREは、複雑で多様な環境を構築するための単純な抽象化を提供する。
また、AREで構築され、汎用エージェント能力を測定するために設計されたベンチマークであるGaia2を提案する。
- 参考スコア(独自算出の注目度): 22.98982051873728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.
- Abstract(参考訳): 本稿では,スケーラブルな環境構築のための研究プラットフォームであるMeta Agents Research Environments (ARE)について紹介する。
AREは、複雑な多様な環境を構築するためのシンプルな抽象化を提供し、それぞれ独自のルール、ツール、コンテンツ、検証器を持ち、モデル開発と現実世界のデプロイメントのギャップを埋めるのに役立ちます。
また、AREで構築され、汎用エージェント能力を測定するために設計されたベンチマークであるGaia2を提案する。
Gaia2は、検索と実行以外にも、あいまいさとノイズの処理、動的環境への適応、他のエージェントとのコラボレーション、時間的制約の下での操作を必要とする。
以前のベンチマークとは異なり、Gaia2は非同期に動作し、静的な設定では見えないような新しい障害モードに直面している。
より強力な推論は、しばしば効率の犠牲を伴い、予算のスケーリング曲線は、新しいアーキテクチャと適応的な計算戦略の必要性を強調します。
さらに重要なのは、AREの抽象化によって、Gaia2を他の環境に継続的拡張することが可能になり、コミュニティが自身のドメインに適した新しいベンチマークを迅速に作成できるようになることだ。
AIの後半では、進歩はますます、フロンティア機能を前進させる意味のあるタスクの定義と堅牢な評価に依存している。
関連論文リスト
- Towards General Agentic Intelligence via Environment Scaling [78.66355092082253]
高度なエージェントインテリジェンスは、現実世界のアプリケーションに大規模言語モデルをデプロイするための前提条件である。
完全にシミュレートされた異種環境を自動的に構築するスケーラブルなフレームワークを設計する。
エージェントベンチマーク, tau-bench, tau2-Bench, ACEBenchの実験により, トレーニングモデルである AgentScaler が, モデルの関数呼び出し能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-16T17:57:20Z) - CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale [4.464959191643012]
我々は、次世代マルチエージェントエージェントAIフレームワークを評価するために設計されたオープンソースのベンチマークであるCREW-Wildfireを紹介する。
CREW-Wildfireは、大きな地図、異種エージェント、部分観測可能性、ダイナミックス、長期計画目的を含む手続き的に生成された山火事対応シナリオを提供する。
我々は、最先端のLLMベースのマルチエージェントエージェントAIフレームワークの実装と評価を行い、重要なパフォーマンスギャップを明らかにした。
論文 参考訳(メタデータ) (2025-07-07T16:33:42Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Novelty Accommodating Multi-Agent Planning in High Fidelity Simulated Open World [7.821603097781892]
我々は、予期せぬ現象、すなわちテクストノベルティが環境中に現れるときに生じる課題に対処する。
環境への新規性の導入は、プランナーの内部モデルに不正確な結果をもたらす可能性がある。
本稿では,同時動作と外部スケジューリングをサポートするための汎用AIエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-22T03:44:04Z) - BEHAVIOR in Habitat 2.0: Simulator-Independent Logical Task Description
for Benchmarking Embodied AI Agents [31.499374840833124]
高速なシミュレーション速度の恩恵を受けるため、Habitat 2.0にBEHAVIORアクティビティのサブセットを組み込む。
ベンチマークがAIの分野で果たした触媒効果に触発されて、コミュニティはエンボディされたAIのための新しいベンチマークを探している。
論文 参考訳(メタデータ) (2022-06-13T21:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。