論文の概要: RoboTidy : A 3D Gaussian Splatting Household Tidying Benchmark for Embodied Navigation and Action
- arxiv url: http://arxiv.org/abs/2511.14161v2
- Date: Wed, 19 Nov 2025 04:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.126242
- Title: RoboTidy : A 3D Gaussian Splatting Household Tidying Benchmark for Embodied Navigation and Action
- Title(参考訳): RoboTidy : 身体的ナビゲーションと行動のための3次元ガウス平滑化ホームタイピングベンチマーク
- Authors: Xiaoquan Sun, Ruijian Zhang, Kang Pang, Bingchen Miao, Yuxiang Tan, Zhen Yang, Ming Li, Jiayu Chen,
- Abstract要約: RoboTidyは、言語誘導の家庭用ティディリングのための統一されたベンチマークである。
VLA(Vision-Language-Action)とVLN(Vision-Language-Navigation)のトレーニングと評価をサポートする。
- 参考スコア(独自算出の注目度): 11.203501385498242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Household tidying is an important application area, yet current benchmarks neither model user preferences nor support mobility, and they generalize poorly, making it hard to comprehensively assess integrated language-to-action capabilities. To address this, we propose RoboTidy, a unified benchmark for language-guided household tidying that supports Vision-Language-Action (VLA) and Vision-Language-Navigation (VLN) training and evaluation. RoboTidy provides 500 photorealistic 3D Gaussian Splatting (3DGS) household scenes (covering 500 objects and containers) with collisions, formulates tidying as an "Action (Object, Container)" list, and supplies 6.4k high-quality manipulation demonstration trajectories and 1.5k naviagtion trajectories to support both few-shot and large-scale training. We also deploy RoboTidy in the real world for object tidying, establishing an end-to-end benchmark for household tidying. RoboTidy offers a scalable platform and bridges a key gap in embodied AI by enabling holistic and realistic evaluation of language-guided robots.
- Abstract(参考訳): 家庭タイピングは重要なアプリケーション分野であるが、現在のベンチマークではユーザー好みのモデルやモビリティをサポートしておらず、一般化が不十分であるため、統合された言語対アクション機能を総合的に評価することは困難である。
そこで本研究では,VLA(Vision-Language-Action)とVLN(Vision-Language-Navigation)のトレーニングと評価をサポートする,言語誘導型ホームタイディリングの統一ベンチマークであるRoboTidyを提案する。
RoboTidyは500枚のフォトリアリスティックな3Dガウススプラッティング(3DGS)の家庭用シーンに500個のオブジェクトとコンテナを衝突させ、"Action (Object, Container)"リストとして定式化し、6.4kの高品質な操作デモトラジェクトリと1.5kのナビゲーショントラジェクトリを提供し、小ショットと大規模トレーニングの両方をサポートする。
また,RoboTidyを現実の世界に展開し,家庭用ティディリングのエンドツーエンドベンチマークを構築した。
RoboTidyはスケーラブルなプラットフォームを提供し、言語誘導ロボットの全体的かつ現実的な評価を可能にすることで、AIの具体化における重要なギャップを埋める。
関連論文リスト
- Zero-shot Object-Centric Instruction Following: Integrating Foundation Models with Traditional Navigation [8.788856156414026]
大規模なシーンは、因子グラフ内のロボットのポーズと合わせて推定されるランドマークの3Dグラフで、堅牢かつ効率的にマッピングすることができる。
そこで本研究では,自然言語命令のゼロショット手法であるLanguage-Inferred Factor Graph for Instruction following (LIFGIF)を提案する。
ボストン・ダイナミクス・スポット・ロボットを用いた実世界におけるゼロショット物体中心指導におけるLIFGIFの有効性を実証した。
論文 参考訳(メタデータ) (2024-11-12T15:01:40Z) - Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy [68.50785963043161]
GemBenchは視覚言語ロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである。
LLMのタスク計画機能と3D-LOTUSの動作計画機能を統合するフレームワークである3D-LOTUS++を提案する。
3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
論文 参考訳(メタデータ) (2024-10-02T09:02:34Z) - RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。
パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。
実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-15T19:22:51Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。