論文の概要: Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2508.13998v1
- Date: Tue, 19 Aug 2025 16:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.019515
- Title: Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
- Title(参考訳): Embodied-R1: 汎用ロボットマニピュレーションのための強化Embodied Reasoning
- Authors: Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao,
- Abstract要約: 本稿では,3B視覚言語モデル(VLM)であるEmbodied-R1を紹介する。
我々は、大規模なデータセットであるEmbodied-Points-200Kを構築するために、幅広い具体的および一般的な視覚的推論データセットをソースとして使用する。
Embodied-R1は11の空間およびポインティングベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 36.57297063636042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in embodied AI is hindered by the "seeing-to-doing gap," which stems from data scarcity and embodiment heterogeneity. To address this, we pioneer "pointing" as a unified, embodiment-agnostic intermediate representation, defining four core embodied pointing abilities that bridge high-level vision-language comprehension with low-level action primitives. We introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed for embodied reasoning and pointing. We use a wide range of embodied and general visual reasoning datasets as sources to construct a large-scale dataset, Embodied-Points-200K, which supports key embodied pointing capabilities. We then train Embodied-R1 using a two-stage Reinforced Fine-tuning (RFT) curriculum with a specialized multi-task reward design. Embodied-R1 achieves state-of-the-art performance on 11 embodied spatial and pointing benchmarks. Critically, it demonstrates robust zero-shot generalization by achieving a 56.2% success rate in the SIMPLEREnv and 87.5% across 8 real-world XArm tasks without any task-specific fine-tuning, representing a 62% improvement over strong baselines. Furthermore, the model exhibits high robustness against diverse visual disturbances. Our work shows that a pointing-centric representation, combined with an RFT training paradigm, offers an effective and generalizable pathway to closing the perception-action gap in robotics.
- Abstract(参考訳): エンボディドAIの一般化は、データの不足とエンボディメントの不均一性に起因する"シーイング・トゥ・ドーイングギャップ"によって妨げられている。
そこで我々は,高レベルな視覚言語理解を低レベルなアクションプリミティブで橋渡しする4つの中核的具現化ポインティング能力を定義し,統一的,具現化に依存しない中間表現としての「ポインティング」を開拓した。
本稿では,3B視覚言語モデル(VLM)であるEmbodied-R1を紹介する。
我々は、大規模なデータセットであるEmbodied-Points-200Kを構築するために、幅広いエンボディドおよび一般的な視覚的推論データセットをソースとして使用し、キーエンボディドポインティング機能をサポートしています。
次に、2段階の強化微調整(RFT)カリキュラムを用いて、特殊マルチタスク報酬設計でEmbodied-R1を訓練する。
Embodied-R1は11の空間およびポインティングベンチマークで最先端のパフォーマンスを達成する。
批判的に言えば、SIMPLEREnvの56.2%の成功率と8つの現実世界のXArmタスクの87.5%をタスク固有の微調整なしで達成し、強力なベースラインよりも62%改善した、堅牢なゼロショットの一般化を示す。
さらに、モデルは多様な視覚障害に対して高い堅牢性を示す。
我々の研究は、視点中心の表現とRFTトレーニングパラダイムが組み合わさって、ロボット工学における知覚と行動のギャップを埋める効果的で一般化可能な経路を提供することを示している。
関連論文リスト
- Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model [23.56313087226691]
Affordance Groundingは、ロボットが実行するアクションに関連するオブジェクトの特定の領域を予測することに焦点を当てている。
既存のモデルは、しばしば異なるオブジェクト間で共有される余裕を無視する。
Affordance-R1は,認知的CoT誘導グループ相対的政策最適化を統合した,最初の統合型アプライアンス基盤フレームワークである。
論文 参考訳(メタデータ) (2025-08-08T10:39:04Z) - Beginning with You: Perceptual-Initialization Improves Vision-Language Representation and Alignment [2.3735961220736423]
視覚表現学習におけるパラダイムシフトである知覚初期化(PI)を導入する。
提案手法は,タスク固有の微調整を使わずに,ゼロショット性能が大幅に向上したことを示す。
私たちの研究は、人間の知覚から始まる「あなたとの交際」が、汎用的な視覚言語知能の強力な基盤を提供することを示している。
論文 参考訳(メタデータ) (2025-05-20T11:04:14Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Identity-Seeking Self-Supervised Representation Learning for
Generalizable Person Re-identification [55.1738496692892]
従来のDG ReID法では、アノテーションのコストが高いため、トレーニングにラベル付きデータを限定的に使用していた。
本稿では,ISR(Identity-seeking Self-supervised Representation Learning)法を提案する。
ISRは、最大重み付き二部マッチング問題としてインスタンスアソシエーションをモデル化することにより、フレーム間画像から正のペアを構築する。
ISRは市場1501で87.0%、MSMT17で56.4%、それぞれ5.0%、19.5%となっている。
論文 参考訳(メタデータ) (2023-08-17T09:46:27Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。