論文の概要: RoboSubtaskNet: Temporal Sub-task Segmentation for Human-to-Robot Skill Transfer in Real-World Environments
- arxiv url: http://arxiv.org/abs/2602.10015v2
- Date: Wed, 11 Feb 2026 05:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.253405
- Title: RoboSubtaskNet: Temporal Sub-task Segmentation for Human-to-Robot Skill Transfer in Real-World Environments
- Title(参考訳): RoboSubtaskNet:実環境における人間とロボットのスキル伝達のための時間的サブタスクセグメンテーション
- Authors: Dharmendra Sharma, Archit Sharma, John Rebeiro, Vaibhav Kesharwani, Peeyush Thakur, Narendra Kumar Dhar, Laxmidhar Behera,
- Abstract要約: 人間とロボットのコラボレーションを安全にするためには、細かなサブタスクのセグメントを、長い、トリミングされていないビデオで一時的に見つけて分類することが不可欠だ。
本稿では,マルチステージのヒューマン・ロボット・サブタスクセグメンテーションフレームワークであるRoboSubtaskNetを紹介する。
また、サブタスクレベルで注釈付けされた医療および産業デモのデータセットであるRoboSubtaskを紹介します。
- 参考スコア(独自算出の注目度): 14.919366180093363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporally locating and classifying fine-grained sub-task segments in long, untrimmed videos is crucial to safe human-robot collaboration. Unlike generic activity recognition, collaborative manipulation requires sub-task labels that are directly robot-executable. We present RoboSubtaskNet, a multi-stage human-to-robot sub-task segmentation framework that couples attention-enhanced I3D features (RGB plus optical flow) with a modified MS-TCN employing a Fibonacci dilation schedule to capture better short-horizon transitions such as reach-pick-place. The network is trained with a composite objective comprising cross-entropy and temporal regularizers (truncated MSE and a transition-aware term) to reduce over-segmentation and to encourage valid sub-task progressions. To close the gap between vision benchmarks and control, we introduce RoboSubtask, a dataset of healthcare and industrial demonstrations annotated at the sub-task level and designed for deterministic mapping to manipulator primitives. Empirically, RoboSubtaskNet outperforms MS-TCN and MS-TCN++ on GTEA and our RoboSubtask benchmark (boundary-sensitive and sequence metrics), while remaining competitive on the long-horizon Breakfast benchmark. Specifically, RoboSubtaskNet attains F1 @ 50 = 79.5%, Edit = 88.6%, Acc = 78.9% on GTEA; F1 @ 50 = 30.4%, Edit = 52.0%, Acc = 53.5% on Breakfast; and F1 @ 50 = 94.2%, Edit = 95.6%, Acc = 92.2% on RoboSubtask. We further validate the full perception-to-execution pipeline on a 7-DoF Kinova Gen3 manipulator, achieving reliable end-to-end behavior in physical trials (overall task success approx 91.25%). These results demonstrate a practical path from sub-task level video understanding to deployed robotic manipulation in real-world settings.
- Abstract(参考訳): 人間とロボットのコラボレーションを安全にするためには、細かなサブタスクのセグメントを、長い、トリミングされていないビデオで一時的に見つけて分類することが不可欠だ。
一般的なアクティビティ認識とは異なり、協調操作にはロボットが直接実行可能なサブタスクラベルが必要である。
本稿では,マルチステージの人間とロボットのサブタスクセグメンテーションフレームワークであるRoboSubtaskNetを提案する。
ネットワークは、クロスエントロピーと時間正規化器(truncated MSEおよびtransition-aware term)からなる複合目標を用いて訓練され、オーバーセグメンテーションを減らし、有効なサブタスク進行を促す。
ビジョンベンチマークとコントロールのギャップを埋めるため、サブタスクレベルで注釈付けされた医療および産業デモのデータセットであるRoboSubtaskを導入し、マニピュレータプリミティブへの決定論的マッピングを設計する。
実証的には、RoboSubtaskNetはGTEAとRoboSubtaskベンチマーク(バウンダリ感度とシーケンスメトリクス)でMS-TCNとMS-TCN++を上回っています。
具体的には、RoboSubtaskNetはF1 @50 = 79.5%、Edit = 88.6%、Acc = 78.9%、GTEAではF1 @50 = 30.4%、Edit = 52.0%、Acc = 53.5%、BreakfastではF1 @50 = 94.2%、Edit = 95.6%、Acc = 92.2%となる。
さらに、7-DoF Kinova Gen3 マニピュレータ上での完全な知覚・実行パイプラインを検証し、物理的トライアル(全タスク成功率91.25%)において信頼性の高いエンドツーエンド動作を実現する。
これらの結果は,サブタスクレベルの映像理解から,実環境におけるロボット操作への実践的な道筋を示すものである。
関連論文リスト
- Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation [14.833622989644352]
我々は、自然言語コマンドを信頼性の高い操作に変換する軽量で完全なオンデバイスパイプラインを開発した。
Instruct2Actは91.5%のサブアクション予測精度を達成し、フットプリントは小さい。
その結果, DATRNに基づく軌道生成と視覚誘導グラウンド化と相まって, 決定論的, リアルタイムな操作を行うための実践的な経路が得られた。
論文 参考訳(メタデータ) (2026-02-10T16:25:39Z) - MM-ACT: Learn from Multimodal Parallel Generation to Act [80.9182259389658]
MM-ACTは、テキスト、画像、アクションを共有トークン空間に統合し、3つのモード全てで生成する。
コンテキスト共有型マルチモーダル学習は、共有コンテキストから3つのモードすべての生成を監督する。
提案手法は,実フランカの3つのタスクで96.3%,実フランカの3つのタスクで72.0%,RoboTwin2.0の8つの2つのタスクで52.38%を達成している。
論文 参考訳(メタデータ) (2025-11-30T16:46:35Z) - ManiAgent: An Agentic Framework for General Robotic Manipulation [30.154478145473792]
汎用操作のためのエージェントアーキテクチャであるManiAgentを紹介する。
複数のエージェントは、環境認識、サブタスク分解、アクション生成を行うためのエージェント間通信を含む。
ManiAgentはSimplerEnvベンチマークで86.8%、現実世界のピック・アンド・プレイスタスクで95.8%の成功率を達成した。
論文 参考訳(メタデータ) (2025-10-13T17:34:48Z) - Probabilistic Human Intent Prediction for Mobile Manipulation: An Evaluation with Human-Inspired Constraints [2.2893865000399938]
人間の意図の正確な推論は、人間とロボットの衝突を引き起こすことなく、人間とロボットの協調を可能にする。
ロボットが人間の操作者の意図を推定できる確率的フレームワークであるGUIDERを提案する。
アイザック・シムの25の試験(5人の被験者x5のタスク変種)においてGUIDERを評価し,ナビゲーション用と操作用の2つのベースラインと比較した。
論文 参考訳(メタデータ) (2025-07-14T10:21:27Z) - RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models [49.4824734958566]
カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。
CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
論文 参考訳(メタデータ) (2025-04-17T21:31:23Z) - Multimodal Subtask Graph Generation from Instructional Videos [51.96856868195961]
実世界のタスクは複数の相互依存サブタスクから構成される。
本研究では,タスクを記述する指導ビデオから,そのようなサブタスク間の因果関係をモデル化することを目的とする。
マルチモーダルなサブタスクグラフ生成(MSG2)を提案する。これは、ノイズの多いWebビデオからタスクに関連するタスクのサブタスク間の依存性を定義するサブタスクグラフを構築するアプローチである。
論文 参考訳(メタデータ) (2023-02-17T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。