論文の概要: Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
- arxiv url: http://arxiv.org/abs/2602.11964v1
- Date: Thu, 12 Feb 2026 13:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.856343
- Title: Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
- Title(参考訳): Gaia2: 動的および非同期環境におけるLLMエージェントのベンチマーク
- Authors: Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom,
- Abstract要約: 本稿では,大規模言語モデルエージェントを現実的,非同期な環境で評価するためのベンチマークであるGaia2を紹介する。
Gaia2はエージェントアクションとは独立して環境が進化するシナリオを導入している。
Gaia2はオープンソースのAgents Research Environmentsプラットフォームを備えたコンシューマ環境上に構築されている。
- 参考スコア(独自算出の注目度): 22.98982051873728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Gaia2, a benchmark for evaluating large language model agents in realistic, asynchronous environments. Unlike prior static or synchronous evaluations, Gaia2 introduces scenarios where environments evolve independently of agent actions, requiring agents to operate under temporal constraints, adapt to noisy and dynamic events, resolve ambiguity, and collaborate with other agents. Each scenario is paired with a write-action verifier, enabling fine-grained, action-level evaluation and making Gaia2 directly usable for reinforcement learning from verifiable rewards. Our evaluation of state-of-the-art proprietary and open-source models shows that no model dominates across capabilities: GPT-5 (high) reaches the strongest overall score of 42% pass@1 but fails on time-sensitive tasks, Claude-4 Sonnet trades accuracy and speed for cost, Kimi-K2 leads among open-source models with 21% pass@1. These results highlight fundamental trade-offs between reasoning, efficiency, robustness, and expose challenges in closing the "sim2real" gap. Gaia2 is built on a consumer environment with the open-source Agents Research Environments platform and designed to be easy to extend. By releasing Gaia2 alongside the foundational ARE framework, we aim to provide the community with a flexible infrastructure for developing, benchmarking, and training the next generation of practical agent systems.
- Abstract(参考訳): 本稿では,大規模言語モデルエージェントを現実的,非同期な環境で評価するためのベンチマークであるGaia2を紹介する。
従来の静的または同期的な評価とは異なり、Gaia2では、エージェントアクションとは独立して環境が進化するシナリオを導入し、時間的制約の下でエージェントを動作させ、ノイズや動的イベントに適応し、曖昧さを解消し、他のエージェントと協力する必要がある。
各シナリオは書き込み動作検証器と組み合わせて、きめ細かなアクションレベルの評価を可能にし、Gaia2を検証可能な報酬から強化学習に直接使用できるようにする。
GPT-5 (high) は 42% pass@1 の最高スコアに達したが、時間に敏感なタスクでは失敗し、Claude-4 Sonnet は精度とコストの速さを、Kimi-K2 は21% pass@1 のオープンソースモデルの中でリードしている。
これらの結果は、推論、効率、堅牢性の基本的なトレードオフを強調し、"sim2real"ギャップを閉じる際の課題を明らかにします。
Gaia2はオープンソースのAgents Research Environmentsプラットフォームを備えたコンシューマ環境上に構築されており、拡張が容易であるように設計されている。
基礎となるAREフレームワークと共にGaia2をリリースすることにより、私たちはコミュニティに次世代の実用的なエージェントシステムを開発し、ベンチマークし、訓練するための柔軟なインフラを提供することを目指しています。
関連論文リスト
- Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - ARE: Scaling Up Agent Environments and Evaluations [22.98982051873728]
本稿では,スケーラブルな環境構築のための研究プラットフォームであるMeta Agents Research Environments (ARE)を紹介する。
AREは、複雑で多様な環境を構築するための単純な抽象化を提供する。
また、AREで構築され、汎用エージェント能力を測定するために設計されたベンチマークであるGaia2を提案する。
論文 参考訳(メタデータ) (2025-09-21T16:59:45Z) - GAIA: A Foundation Model for Operational Atmospheric Dynamics [0.83442357861662]
我々は,MAE(Masked Autoencoders)とラベルのない自己蒸留(DINO)を融合したハイブリッド自己教師型モデルGAIAを紹介する。
GAIAは、自明な日中パターンではなく、大気力学を捉える非絡み合った表現を学ぶ。
下流タスクに移行すると、GAIAは一貫してMAEのみのベースラインを上回っます。
論文 参考訳(メタデータ) (2025-05-15T05:07:09Z) - R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。