論文の概要: From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2505.08548v1
- Date: Tue, 13 May 2025 13:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.581085
- Title: From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation
- Title(参考訳): 見るからするへ:ロボットマニピュレーションのためのブリッジング推論と決定
- Authors: Yifu Yuan, Haiqin Cui, Yibin Chen, Zibin Dong, Fei Ni, Longxin Kou, Jinyi Liu, Pengyi Li, Yan Zheng, Jianye Hao,
- Abstract要約: FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで54.1%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
- 参考スコア(独自算出の注目度): 35.79160868966466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving generalization in robotic manipulation remains a critical challenge, particularly for unseen scenarios and novel tasks. Current Vision-Language-Action (VLA) models, while building on top of general Vision-Language Models (VLMs), still fall short of achieving robust zero-shot performance due to the scarcity and heterogeneity prevalent in embodied datasets. To address these limitations, we propose FSD (From Seeing to Doing), a novel vision-language model that generates intermediate representations through spatial relationship reasoning, providing fine-grained guidance for robotic manipulation. Our approach combines a hierarchical data pipeline for training with a self-consistency mechanism that aligns spatial coordinates with visual signals. Through extensive experiments, we comprehensively validated FSD's capabilities in both "seeing" and "doing," achieving outstanding performance across 8 benchmarks for general spatial reasoning and embodied reference abilities, as well as on our proposed more challenging benchmark VABench. We also verified zero-shot capabilities in robot manipulation, demonstrating significant performance improvements over baseline methods in both SimplerEnv and real robot settings. Experimental results show that FSD achieves 54.1% success rate in SimplerEnv and 72% success rate across 8 real-world tasks, outperforming the strongest baseline by 30%.
- Abstract(参考訳): ロボット操作の一般化を実現することは、特に目に見えないシナリオや新しいタスクにとって、依然として重要な課題である。
現在のVision-Language-Action(VLA)モデルでは、一般的なVision-Language Models(VLM)の上に構築されているが、組み込まれたデータセットの不足と不均一性のために、堅牢なゼロショット性能を達成するには至っていない。
これらの制約に対処するために,空間関係推論により中間表現を生成する視覚言語モデルFSD(From Seeing to Doing)を提案する。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層型データパイプラインを併用する。
広範にわたる実験を通じて,FSDの「観察」と「実施」の両面での能力を総合的に検証し,一般的な空間的推論と具体的参照能力のための8つのベンチマークで優れた性能を達成し,さらに,提案したより挑戦的なベンチマークVABenchにも適用した。
また、ロボット操作におけるゼロショット機能を検証するとともに、SimplerEnvと実際のロボット設定の両方において、ベースラインメソッドよりも優れたパフォーマンスを示す。
実験の結果、FSDはSimplerEnvで54.1%の成功率、実世界の8つのタスクで72%の成功率を達成し、最強のベースラインを30%上回った。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Leveraging Locality to Boost Sample Efficiency in Robotic Manipulation [14.990771038350106]
SGRv2は、視覚および行動表現の改善を通じてサンプル効率を向上させる模倣学習フレームワークである。
SGRv2 は RLBench タスクで5つのデモしか使用せず、26タスク中23タスクで RVT ベースラインを超えている。
論文 参考訳(メタデータ) (2024-06-15T12:27:35Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。