論文の概要: Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.09940v1
- Date: Tue, 10 Feb 2026 16:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.678711
- Title: Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation
- Title(参考訳): Instruct2Act:人間指導からロボット操作のためのロボット行動ネットワークによる行動シークエンシングと実行へ
- Authors: Archit Sharma, Dharmendra Sharma, John Rebeiro, Peeyush Thakur, Narendra Dhar, Laxmidhar Behera,
- Abstract要約: 我々は、自然言語コマンドを信頼性の高い操作に変換する軽量で完全なオンデバイスパイプラインを開発した。
Instruct2Actは91.5%のサブアクション予測精度を達成し、フットプリントは小さい。
その結果, DATRNに基づく軌道生成と視覚誘導グラウンド化と相まって, 決定論的, リアルタイムな操作を行うための実践的な経路が得られた。
- 参考スコア(独自算出の注目度): 14.833622989644352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots often struggle to follow free-form human instructions in real-world settings due to computational and sensing limitations. We address this gap with a lightweight, fully on-device pipeline that converts natural-language commands into reliable manipulation. Our approach has two stages: (i) the instruction to actions module (Instruct2Act), a compact BiLSTM with a multi-head-attention autoencoder that parses an instruction into an ordered sequence of atomic actions (e.g., reach, grasp, move, place); and (ii) the robot action network (RAN), which uses the dynamic adaptive trajectory radial network (DATRN) together with a vision-based environment analyzer (YOLOv8) to generate precise control trajectories for each sub-action. The entire system runs on a modest system with no cloud services. On our custom proprietary dataset, Instruct2Act attains 91.5% sub-actions prediction accuracy while retaining a small footprint. Real-robot evaluations across four tasks (pick-place, pick-pour, wipe, and pick-give) yield an overall 90% success; sub-action inference completes in < 3.8s, with end-to-end executions in 30-60s depending on task complexity. These results demonstrate that fine-grained instruction-to-action parsing, coupled with DATRN-based trajectory generation and vision-guided grounding, provides a practical path to deterministic, real-time manipulation in resource-constrained, single-camera settings.
- Abstract(参考訳): ロボットはしばしば、計算と感知の制限により、現実世界の設定において自由形式の人間の指示に従うのに苦労する。
このギャップを、自然言語コマンドを信頼性のある操作に変換する軽量で完全にオンデバイスなパイプラインで解決する。
私たちのアプローチには2つの段階があります。
i) アクションモジュールへの命令(Instruct2Act)、命令を順序づけられたアトミックアクション(例えば、到達、把握、移動、配置)のシーケンスにパースするマルチヘッドアテンションオートエンコーダを備えたコンパクトなBiLSTM。
二 動的適応軌道放射ネットワーク(DATRN)と視覚ベースの環境分析装置(YOLOv8)を用いて、各サブアクションに対して正確な制御軌跡を生成するロボット行動ネットワーク(RAN)。
システム全体が、クラウドサービスのない控えめなシステムで動作する。
私たちのカスタムプロプライエタリなデータセットでは、Instruct2Actは91.5%のサブアクション予測精度を達成し、小さなフットプリントを維持しています。
4つのタスク(ピック・プレース、ピック・パー、ワイプ、ピック・ギブ)におけるリアルタイムロボットの評価は、全体の90%の成功をもたらし、サブアクション推論は3.8秒未満で完了し、タスクの複雑さに応じて30~60秒でエンド・ツー・エンドの実行が完了する。
これらの結果から, DATRNに基づく微粒な命令対アクション解析と, DATRNに基づくトラジェクトリ生成と視覚誘導的グラウンドニングが組み合わさって, 資源制約された単一カメラ設定における決定論的, リアルタイムな操作を実現するための実践的経路が示唆された。
関連論文リスト
- InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.89177083578213]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。
InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。
結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文 参考訳(メタデータ) (2025-10-15T17:30:05Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Affordance-based Robot Manipulation with Flow Matching [7.51335919610328]
本稿では,ロボット操作支援のためのフレームワークを提案する。
第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。
我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。