Fugu-MT 論文翻訳(概要): Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI

論文の概要: Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI

arxiv url: http://arxiv.org/abs/2310.01824v1
Date: Tue, 3 Oct 2023 06:41:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 17:26:11.013988
Title: Mini-BEHAVIOR: A Procedurally Generated Benchmark for Long-horizon Decision-Making in Embodied AI
Title（参考訳）: Mini-Behavior: 身体的AIにおける長距離意思決定のための手続き的に生成されたベンチマーク
Authors: Emily Jin, Jiaheng Hu, Zhuoyi Huang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Roberto Mart\'in-Mart\'in
Abstract要約: Mini-Behaviorは、組み込みAIの新しいベンチマークである。エージェントに推論と意思決定のスキルを使って、日々の人間の課題に似た複雑な活動を解決するよう挑戦する。
参考スコア（独自算出の注目度）: 24.045182194052337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Mini-BEHAVIOR, a novel benchmark for embodied AI that challenges agents to use reasoning and decision-making skills to solve complex activities that resemble everyday human challenges. The Mini-BEHAVIOR environment is a fast, realistic Gridworld environment that offers the benefits of rapid prototyping and ease of use while preserving a symbolic level of physical realism and complexity found in complex embodied AI benchmarks. We introduce key features such as procedural generation, to enable the creation of countless task variations and support open-ended learning. Mini-BEHAVIOR provides implementations of various household tasks from the original BEHAVIOR benchmark, along with starter code for data collection and reinforcement learning agent training. In essence, Mini-BEHAVIOR offers a fast, open-ended benchmark for evaluating decision-making and planning solutions in embodied AI. It serves as a user-friendly entry point for research and facilitates the evaluation and development of solutions, simplifying their assessment and development while advancing the field of embodied AI. Code is publicly available at https://github.com/StanfordVL/mini_behavior.
Abstract（参考訳）: エージェントが推論や意思決定のスキルを駆使して、日常の人間の課題に類似した複雑なタスクを解決するための新しいベンチマークであるmini-behaviorを提案する。 Mini-BEHAVIOR環境は高速で現実的なGridworld環境であり、複雑なAIベンチマークで見られる物理リアリズムと複雑性の象徴的なレベルを維持しながら、迅速なプロトタイピングと使いやすさのメリットを提供する。手続き生成などの重要な機能を導入し、無数のタスクのバリエーションの作成を可能にし、オープンエンド学習をサポートする。 Mini-BEHAVIORは、データ収集および強化学習エージェントトレーニングのスタータコードとともに、オリジナルのBEHAVIORベンチマークから様々な家庭用タスクの実装を提供する。本質的には、Mini-BEHAVIORは、組み込みAIにおける意思決定と計画ソリューションを評価するための、高速でオープンなベンチマークを提供する。研究のためのユーザフレンドリーなエントリポイントとして機能し、ソリューションの評価と開発を促進し、インボディードAIの分野を前進させながら、その評価と開発を簡素化する。コードはhttps://github.com/stanfordvl/mini_behaviorで公開されている。

関連論文リスト

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
Mini Amusement Parks (MAPs): A Testbed for Modelling Business Decisions [1.9700834634644708]
ミニ・アミューズメント・パーク(MAP)は、エージェントの環境をモデル化する能力を評価するために設計された遊園地シミュレータである。我々は、ヒトのベースラインと最先端のLDMエージェントの総合評価を行い、ヒトは、容易モードでは6.5倍、中モードでは9.8倍、これらのシステムより優れていることを発見した。
論文参考訳（メタデータ） (2025-11-19T19:38:05Z)
CABENCH: Benchmarking Composable AI for Solving Complex Tasks through Composing Ready-to-Use Models [5.372827470241613]
Composable AIは、複雑なAIタスクに取り組むためのスケーラブルで効果的なパラダイムを提供する。我々は,70のリアルな構成可能なAIタスクからなる最初の公開ベンチマークであるCABENCHを紹介する。また,構成可能なAIソリューションのエンドツーエンド評価を可能にする評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T13:48:32Z)
CREW-WILDFIRE: Benchmarking Agentic Multi-Agent Collaborations at Scale [4.464959191643012]
我々は、次世代マルチエージェントエージェントAIフレームワークを評価するために設計されたオープンソースのベンチマークであるCREW-Wildfireを紹介する。 CREW-Wildfireは、大きな地図、異種エージェント、部分観測可能性、ダイナミックス、長期計画目的を含む手続き的に生成された山火事対応シナリオを提供する。我々は、最先端のLLMベースのマルチエージェントエージェントAIフレームワークの実装と評価を行い、重要なパフォーマンスギャップを明らかにした。
論文参考訳（メタデータ） (2025-07-07T16:33:42Z)
General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文参考訳（メタデータ） (2025-03-09T01:13:56Z)
AIDE: AI-Driven Exploration in the Space of Code [6.401493599308353]
大規模言語モデル(LLM)を利用した機械学習エンジニアリングエージェントであるAI-Driven Exploration(AIDE)を紹介する。 AIDEは、コード最適化問題として機械学習エンジニアリングをフレーム化し、潜在的なソリューションの空間におけるツリーサーチとして試行錯誤を定式化する。有望なソリューションを戦略的に再利用し、精製することにより、AIDEは計算資源を効果的に取引し、性能を向上する。
論文参考訳（メタデータ） (2025-02-18T18:57:21Z)
Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文参考訳（メタデータ） (2024-09-28T23:05:56Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
我々は、低レベルのプリミティブを進化させるための達成可能なサブゴールのカリキュラムを生成する新しいHRLアルゴリズムであるCRISPを提案する。 CRISPは低レベルのプリミティブを使用して、少数の専門家によるデモンストレーションで定期的にデータレバーベリングを行う。実世界のシナリオにおいてCRISPは印象的な一般化を示す。
論文参考訳（メタデータ） (2023-04-07T08:22:50Z)
BEHAVIOR in Habitat 2.0: Simulator-Independent Logical Task Description for Benchmarking Embodied AI Agents [31.499374840833124]
高速なシミュレーション速度の恩恵を受けるため、Habitat 2.0にBEHAVIORアクティビティのサブセットを組み込む。ベンチマークがAIの分野で果たした触媒効果に触発されて、コミュニティはエンボディされたAIのための新しいベンチマークを探している。
論文参考訳（メタデータ） (2022-06-13T21:37:31Z)
Tools and Practices for Responsible AI Engineering [0.5249805590164901]
我々は、責任あるAIエンジニアリングに対する重要なニーズに対処する2つの新しいソフトウェアライブラリを提示する。 hydra-zenは、複雑なAIアプリケーションとその振る舞いを再現するプロセスを劇的に単純化する。 rAI-toolboxは、AIモデルの堅牢性を評価し、拡張する方法を可能にするように設計されている。
論文参考訳（メタデータ） (2022-01-14T19:47:46Z)
BEHAVIOR: Benchmark for Everyday Household Activities in Virtual, Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。これらの活動は現実的で多様性があり、複雑であるように設計されています。われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文参考訳（メタデータ） (2021-08-06T23:36:23Z)
DERAIL: Diagnostic Environments for Reward And Imitation Learning [9.099589602551573]
アルゴリズム性能の個々の面を個別にテストする一連の診断タスクを開発する。その結果,アルゴリズムの性能は実装の詳細に非常に敏感であることが確認された。ケーススタディは、スイートが設計上の欠陥を特定し、候補ソリューションを迅速に評価する方法を示している。
論文参考訳（メタデータ） (2020-12-02T18:07:09Z)
Watch-And-Help: A Challenge for Social Perception and Human-AI Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。 WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文参考訳（メタデータ） (2020-10-19T21:48:31Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)
Integrated Benchmarking and Design for Reproducible and Accessible Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文参考訳（メタデータ） (2020-09-09T15:31:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。