論文の概要: BuilderBench -- A benchmark for generalist agents
- arxiv url: http://arxiv.org/abs/2510.06288v1
- Date: Tue, 07 Oct 2025 04:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.100813
- Title: BuilderBench -- A benchmark for generalist agents
- Title(参考訳): BuilderBench -- ジェネラリストエージェントのベンチマーク
- Authors: Raj Ghugare, Catherine Ji, Kathryn Wantlin, Jin Schofield, Benjamin Eysenbach,
- Abstract要約: BuilderBenchはエージェント事前トレーニングの研究を加速するベンチマークである。
訓練中、エージェントは環境に関する一般的な原則を探求し、学ぶ必要がある。
評価中、エージェントはタスクスイートから見えないターゲット構造を構築する必要がある。
- 参考スコア(独自算出の注目度): 25.95740507109988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's AI models learn primarily through mimicry and sharpening, so it is not surprising that they struggle to solve problems beyond the limits set by existing data. To solve novel problems, agents should acquire skills for exploring and learning through experience. Finding a scalable learning mechanism for developing agents that learn through interaction remains a major open problem. In this work, we introduce BuilderBench, a benchmark to accelerate research into agent pre-training that centers open-ended exploration. BuilderBench requires agents to learn how to build any structure using blocks. BuilderBench is equipped with $(1)$ a hardware accelerated simulator of a robotic agent interacting with various physical blocks, and $(2)$ a task-suite with over 42 diverse target structures that are carefully curated to test an understanding of physics, mathematics, and long-horizon planning. During training, agents have to explore and learn general principles about the environment without any external supervision. During evaluation, agents have to build the unseen target structures from the task suite. Solving these tasks requires a sort of \emph{embodied reasoning} that is not reflected in words but rather in actions, experimenting with different strategies and piecing them together. Our experiments show that many of these tasks challenge the current iteration of algorithms. Hence, we also provide a ``training wheels'' protocol, in which agents are trained and evaluated to build a single target structure from the task suite. Finally, we provide single-file implementations of six different algorithms as a reference point for researchers.
- Abstract(参考訳): 今日のAIモデルは、主に模倣とシャープ化を通じて学習するので、既存のデータによって設定された限界を超えた問題を解決するのに苦労するのは驚くべきことではない。
新たな問題を解決するためには、エージェントは経験を通じて探索と学習のスキルを身につける必要がある。
対話を通じて学習するエージェントを開発するためのスケーラブルな学習メカニズムを見つけることは、依然として大きなオープンな問題である。
本研究では,オープンエンド探索を中心としたエージェント事前訓練の研究を加速するベンチマークであるBuilderBenchを紹介する。
BuilderBenchは、ブロックを使って任意の構造を構築する方法を学ぶためにエージェントを必要とする。
BuilderBenchは、さまざまな物理ブロックと相互作用するロボットエージェントのハードウェアアクセラレーションシミュレータの$(1)と、物理、数学、長期計画の理解をテストするために慎重に調整された42以上の多様なターゲット構造を備えたタスクスーツの$(2)である。
訓練中、エージェントは外部の監督なしに環境に関する一般的な原則を探求し、学ぶ必要がある。
評価中、エージェントはタスクスイートから見えないターゲット構造を構築する必要がある。
これらのタスクを解くには、単語に反映されず、むしろアクションに反映され、異なる戦略を実験し、それらをまとめるある種の『emph{embodied reasoning』が必要である。
我々の実験は、これらのタスクの多くが現在のアルゴリズムの反復に挑戦していることを示している。
これにより、エージェントがトレーニングされ、評価され、タスクスイートから単一のターゲット構造を構築することができる。
最後に、6つの異なるアルゴリズムの単一ファイル実装を研究者の基準点として提供する。
関連論文リスト
- Is Visual in-Context Learning for Compositional Medical Tasks within Reach? [68.56630652862293]
本稿では、1つのモデルで複数のタスクを処理できるビジュアル・イン・コンテキスト・ラーニングの可能性について検討する。
本稿では,合成合成タスク生成エンジンを用いたコンテキスト内学習者の学習方法を提案する。
論文 参考訳(メタデータ) (2025-07-01T15:32:23Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Scalable Multi-Agent Lab Framework for Lab Optimization [0.0]
auTonomous fAcilitiesと呼ばれるマルチエージェントラボコントロールフレームワーク。
システムはエージェント・インストラメンテーションやエージェント・エージェント・インタラクションを含む、施設全体のシミュレーションを可能にする。
我々は,MultiTASKが大規模自律・半自律的な研究キャンペーンと施設で新たな研究領域を開くことを願っている。
論文 参考訳(メタデータ) (2022-08-19T00:18:19Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Learning to Execute Actions or Ask Clarification Questions [9.784428580459776]
命令をいつ要求するか、実行すべきかを判断できる新しいビルダーエージェントモデルを提案する。
実験結果から,本モデルが協調作業における最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-18T15:36:02Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。