論文の概要: Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
- arxiv url: http://arxiv.org/abs/2602.11964v1
- Date: Thu, 12 Feb 2026 13:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.856343
- Title: Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments
- Title(参考訳): Gaia2: 動的および非同期環境におけるLLMエージェントのベンチマーク
- Authors: Romain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom,
- Abstract要約: 本稿では,大規模言語モデルエージェントを現実的,非同期な環境で評価するためのベンチマークであるGaia2を紹介する。
Gaia2はエージェントアクションとは独立して環境が進化するシナリオを導入している。
Gaia2はオープンソースのAgents Research Environmentsプラットフォームを備えたコンシューマ環境上に構築されている。
- 参考スコア(独自算出の注目度): 22.98982051873728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Gaia2, a benchmark for evaluating large language model agents in realistic, asynchronous environments. Unlike prior static or synchronous evaluations, Gaia2 introduces scenarios where environments evolve independently of agent actions, requiring agents to operate under temporal constraints, adapt to noisy and dynamic events, resolve ambiguity, and collaborate with other agents. Each scenario is paired with a write-action verifier, enabling fine-grained, action-level evaluation and making Gaia2 directly usable for reinforcement learning from verifiable rewards. Our evaluation of state-of-the-art proprietary and open-source models shows that no model dominates across capabilities: GPT-5 (high) reaches the strongest overall score of 42% pass@1 but fails on time-sensitive tasks, Claude-4 Sonnet trades accuracy and speed for cost, Kimi-K2 leads among open-source models with 21% pass@1. These results highlight fundamental trade-offs between reasoning, efficiency, robustness, and expose challenges in closing the "sim2real" gap. Gaia2 is built on a consumer environment with the open-source Agents Research Environments platform and designed to be easy to extend. By releasing Gaia2 alongside the foundational ARE framework, we aim to provide the community with a flexible infrastructure for developing, benchmarking, and training the next generation of practical agent systems.
- Abstract(参考訳): 本稿では,大規模言語モデルエージェントを現実的,非同期な環境で評価するためのベンチマークであるGaia2を紹介する。
従来の静的または同期的な評価とは異なり、Gaia2では、エージェントアクションとは独立して環境が進化するシナリオを導入し、時間的制約の下でエージェントを動作させ、ノイズや動的イベントに適応し、曖昧さを解消し、他のエージェントと協力する必要がある。
各シナリオは書き込み動作検証器と組み合わせて、きめ細かなアクションレベルの評価を可能にし、Gaia2を検証可能な報酬から強化学習に直接使用できるようにする。
GPT-5 (high) は 42% pass@1 の最高スコアに達したが、時間に敏感なタスクでは失敗し、Claude-4 Sonnet は精度とコストの速さを、Kimi-K2 は21% pass@1 のオープンソースモデルの中でリードしている。
これらの結果は、推論、効率、堅牢性の基本的なトレードオフを強調し、"sim2real"ギャップを閉じる際の課題を明らかにします。
Gaia2はオープンソースのAgents Research Environmentsプラットフォームを備えたコンシューマ環境上に構築されており、拡張が容易であるように設計されている。
基礎となるAREフレームワークと共にGaia2をリリースすることにより、私たちはコミュニティに次世代の実用的なエージェントシステムを開発し、ベンチマークし、訓練するための柔軟なインフラを提供することを目指しています。
関連論文リスト
- Autonomous Continual Learning of Computer-Use Agents for Environment Adaptation [57.65688895630163]
ACuRLは自律的なカリキュラム強化学習フレームワークで、エージェントを人間データゼロの特定の環境に継続的に適応させる。
本研究では,環境内学習と環境横断学習の両方を効果的に実現し,既存の環境を忘れずに4~22%の性能向上を実現した。
論文 参考訳(メタデータ) (2026-02-10T23:06:02Z) - What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - ARE: Scaling Up Agent Environments and Evaluations [22.98982051873728]
本稿では,スケーラブルな環境構築のための研究プラットフォームであるMeta Agents Research Environments (ARE)を紹介する。
AREは、複雑で多様な環境を構築するための単純な抽象化を提供する。
また、AREで構築され、汎用エージェント能力を測定するために設計されたベンチマークであるGaia2を提案する。
論文 参考訳(メタデータ) (2025-09-21T16:59:45Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - $τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment [32.345011712015435]
AIエージェントの既存のベンチマークは、シングルコントロール環境をシミュレートする。
我々は$tau2$-benchを導入し、エージェントとユーザの両方が、共有された動的な環境で動くツールを活用しています。
特に,エージェントが非ユーザからデュアルコントロールに移行すると,パフォーマンスが著しく低下する。
論文 参考訳(メタデータ) (2025-06-09T17:52:18Z) - GAIA: A Foundation Model for Operational Atmospheric Dynamics [0.83442357861662]
我々は,MAE(Masked Autoencoders)とラベルのない自己蒸留(DINO)を融合したハイブリッド自己教師型モデルGAIAを紹介する。
GAIAは、自明な日中パターンではなく、大気力学を捉える非絡み合った表現を学ぶ。
下流タスクに移行すると、GAIAは一貫してMAEのみのベースラインを上回っます。
論文 参考訳(メタデータ) (2025-05-15T05:07:09Z) - R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents [32.06393076572057]
AgentGymは、現実世界のSWEエージェントを訓練するための、手続き的に計算された最大のジム環境である。
Syngen、合成データキュレーションのレシピ、ハイブリッドテストタイムスケーリングの2つの主要なコントリビューションによって実現されている。
提案手法は,SWE-Bench Verifiedベンチマークで51%を達成し,オープンウェイトSWEエージェントの新たな最先端性を反映した。
論文 参考訳(メタデータ) (2025-04-09T17:55:19Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。