論文の概要: Sari Sandbox: A Virtual Retail Store Environment for Embodied AI Agents
- arxiv url: http://arxiv.org/abs/2508.00400v1
- Date: Fri, 01 Aug 2025 08:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.784409
- Title: Sari Sandbox: A Virtual Retail Store Environment for Embodied AI Agents
- Title(参考訳): Sari Sandbox: 体操AIエージェントのための仮想リテールストア環境
- Authors: Janika Deborah Gajo, Gerarld Paul Merales, Jerome Escarcha, Brenden Ashley Molina, Gian Nartea, Emmanuel G. Maminta, Juan Carlos Roldan, Rowel O. Atienza,
- Abstract要約: Sari Sandboxは、ショッピングタスクにおける人間のパフォーマンスに対する実施エージェントのベンチマークのための高忠実でフォトリアリスティックな3Dストアシミュレーションである。
人間のインタラクションのための仮想現実(VR)と、視覚言語モデル(VLM)を利用したエンボディエージェントの両方をサポートする。
当社のサンドボックスは、エンボディエージェントが小売商品をナビゲートし、検査し、操作し、人間のパフォーマンスに対するベースラインを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Sari Sandbox, a high-fidelity, photorealistic 3D retail store simulation for benchmarking embodied agents against human performance in shopping tasks. Addressing a gap in retail-specific sim environments for embodied agent training, Sari Sandbox features over 250 interactive grocery items across three store configurations, controlled via an API. It supports both virtual reality (VR) for human interaction and a vision language model (VLM)-powered embodied agent. We also introduce SariBench, a dataset of annotated human demonstrations across varied task difficulties. Our sandbox enables embodied agents to navigate, inspect, and manipulate retail items, providing baselines against human performance. We conclude with benchmarks, performance analysis, and recommendations for enhancing realism and scalability. The source code can be accessed via https://github.com/upeee/sari-sandbox-env.
- Abstract(参考訳): Sari Sandboxは、ショッピングタスクにおける人間のパフォーマンスに対するエンボディエージェントのベンチマークを行うための、高忠実でフォトリアリスティックな3Dストアシミュレーションである。
Sari Sandboxは、エンボディエージェントトレーニングのための小売専用のsim環境のギャップに対処し、3つのストア構成で250以上の対話的な食料品をAPI経由で管理する。
人間のインタラクションのための仮想現実(VR)と、視覚言語モデル(VLM)を利用したエンボディエージェントの両方をサポートする。
SariBenchも紹介します。SariBenchは、さまざまなタスクの難しさにまたがる、注釈付き人間デモのデータセットです。
当社のサンドボックスは、エンボディエージェントが小売商品をナビゲートし、検査し、操作し、人間のパフォーマンスに対するベースラインを提供する。
ベンチマーク、パフォーマンス分析、そしてリアリズムとスケーラビリティを強化するための推奨事項で締めくくります。
ソースコードはhttps://github.com/upeee/sari-sandbox-env.comからアクセスすることができる。
関連論文リスト
- Robot Learning with Super-Linear Scaling [20.730206708381704]
CASHERは、データ収集と学習をシミュレーションでスケールアップするためのパイプラインであり、パフォーマンスは人間の努力と超直線的にスケールする。
そこで我々は,CASHERにより,人的努力を伴わないビデオスキャンにより,事前学習したポリシーを目標シナリオに微調整できることを示す。
論文 参考訳(メタデータ) (2024-12-02T18:12:02Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models [63.89598561397856]
室内環境における四足歩行操作のためのシステムを提案する。
オブジェクト操作にはフロントマウントのグリップを使用しており、アジャイルスキルにエゴセントリックな深さを使ってシミュレーションでトレーニングされた低レベルのコントローラである。
実世界のデータ収集やトレーニングを行なわずに、2つの目に見えない環境でシステムを評価する。
論文 参考訳(メタデータ) (2024-09-30T20:58:38Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards
Embodied AI [88.03089807278188]
EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。
1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。
このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。
任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
論文 参考訳(メタデータ) (2023-12-26T18:59:11Z) - HabiCrowd: A High Performance Simulator for Crowd-Aware Visual Navigation [8.484737966013059]
私たちは、クラウド対応ビジュアルナビゲーションのための最初の標準ベンチマークであるHabiCrowdを紹介します。
提案する人間力学モデルは衝突回避における最先端性能を実現する。
我々はHabiCrowdを利用して、クラウド対応視覚ナビゲーションタスクと人間とロボットのインタラクションに関する総合的な研究を行っている。
論文 参考訳(メタデータ) (2023-06-20T08:36:08Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - Robotic Learning the Sequence of Packing Irregular Objects from Human
Demonstrations [3.58439716487063]
我々は、食料品などの不規則な物でロボットビンを梱包するという課題に取り組む。
我々のアプローチは、暗黙的なタスク知識を抽出するために、専門家によるデモンストレーションから直接学ぶことである。
私たちは、オブジェクトのパッキングシーケンスを予測するためにマルコフ連鎖を学ぶために、人間のデモに頼っています。
論文 参考訳(メタデータ) (2022-10-04T14:44:55Z) - UrbanScene3D: A Large Scale Urban Scene Dataset and Simulator [13.510431691480727]
本論文では,Unreal Engine 4 と AirSim をベースとした手頃なシミュレータに付随する大規模都市景観データセットを提案する。
従来の2D情報や人為的な3DCADモデルに基づいた作品とは異なり、UrbanScene3Dには、コンパクトな人造モデルと、空中画像で再構成された詳細な現実世界モデルの両方が含まれている。
論文 参考訳(メタデータ) (2021-07-09T07:56:46Z) - Out of the Box: Embodied Navigation in the Real World [45.97756658635314]
シミュレーションで得られた知識を現実世界に伝達する方法を示す。
モデルは1台のIntel RealSenseカメラを搭載したLoCoBotにデプロイします。
本実験では,得られたモデルを実世界に展開することで,満足のいく結果が得られることを示した。
論文 参考訳(メタデータ) (2021-05-12T18:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。