論文の概要: RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video
- arxiv url: http://arxiv.org/abs/2511.22950v1
- Date: Fri, 28 Nov 2025 07:51:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.808966
- Title: RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video
- Title(参考訳): RobotSeg:画像とビデオにロボットを分割するためのモデルとデータセット
- Authors: Haiyang Mei, Qiming Huang, Hai Ci, Mike Zheng Shou,
- Abstract要約: 画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。
ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。
それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 56.9581053843815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate robot segmentation is a fundamental capability for robotic perception. It enables precise visual servoing for VLA systems, scalable robot-centric data augmentation, accurate real-to-sim transfer, and reliable safety monitoring in dynamic human-robot environments. Despite the strong capabilities of modern segmentation models, surprisingly it remains challenging to segment robots. This is due to robot embodiment diversity, appearance ambiguity, structural complexity, and rapid shape changes. Embracing these challenges, we introduce RobotSeg, a foundation model for robot segmentation in image and video. RobotSeg is built upon the versatile SAM 2 foundation model but addresses its three limitations for robot segmentation, namely the lack of adaptation to articulated robots, reliance on manual prompts, and the need for per-frame training mask annotations, by introducing a structure-enhanced memory associator, a robot prompt generator, and a label-efficient training strategy. These innovations collectively enable a structure-aware, automatic, and label-efficient solution. We further construct the video robot segmentation (VRS) dataset comprising over 2.8k videos (138k frames) with diverse robot embodiments and environments. Extensive experiments demonstrate that RobotSeg achieves state-of-the-art performance on both images and videos, establishing a strong foundation for future advances in robot perception.
- Abstract(参考訳): 正確なロボットセグメンテーションは、ロボット知覚の基本的な能力である。
VLAシステムの正確なビジュアルサーボ、スケーラブルなロボット中心のデータ拡張、正確なリアルタイム転送、動的人間ロボット環境での信頼性の高い安全性監視を可能にする。
現代のセグメンテーションモデルの強力な能力にもかかわらず、驚くほどロボットをセグメンテーションすることは難しい。
これは、ロボットのエンボディメントの多様性、外観のあいまいさ、構造的な複雑さ、急激な形状の変化による。
これらの課題を受け入れるために、画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介した。
RobotSegは汎用的なSAM 2ファンデーションモデルに基づいて構築されているが、ロボットセグメンテーションの3つの制限、すなわち、ロボットへの適応の欠如、手動プロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処するために、構造強化メモリアソシエイタ、ロボットプロンプトジェネレータ、ラベル効率のトレーニング戦略を導入している。
これらのイノベーションは、構造を認識し、自動的で、ラベル効率のよいソリューションを可能にする。
さらに,ビデオロボットセグメンテーション(VRS)データセットを構築した。
大規模な実験により、RobotSegは画像とビデオの両方で最先端のパフォーマンスを達成し、将来のロボット知覚の進歩のための強力な基盤を確立することが実証された。
関連論文リスト
- GR00T N1: An Open Foundation Model for Generalist Humanoid Robots [133.23509142762356]
汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
論文 参考訳(メタデータ) (2025-03-18T21:06:21Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Controlling diverse robots by inferring Jacobian fields with deep networks [48.279199537720714]
自然生物の複雑な構造と多様な機能を反映することは、ロボット工学における長年の課題である。
本稿では,深層ニューラルネットワークを用いてロボットの映像ストリームをバイスモータヤコビアン場にマッピングする手法を提案する。
提案手法は,正確なクローズドループ制御を実現し,各ロボットの因果動的構造を復元する。
論文 参考訳(メタデータ) (2024-07-11T17:55:49Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - RoboCat: A Self-Improving Generalist Agent for Robotic Manipulation [33.10577695383743]
ロボット操作のためのマルチタスク汎用エージェントRoboCatを提案する。
このデータは、シミュレートされた本物のロボットアームから、さまざまな観察とアクションのセットでモーターコントロールスキルの大規模なレパートリーにまたがる。
RoboCatでは、ゼロショットだけでなく、100-1000例のみを用いて適応することで、新しいタスクやロボットに一般化する能力を実証する。
論文 参考訳(メタデータ) (2023-06-20T17:35:20Z) - Single-view robot pose and joint angle estimation via render & compare [40.05546237998603]
本稿では,1枚のRGB画像から関節角度と6Dカメラとロボットのポーズを推定する手法であるRoboPoseを紹介する。
これは、モバイルおよび反復型自律システムに他のロボットと対話する能力を与える上で、重要な問題である。
論文 参考訳(メタデータ) (2021-04-19T14:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。