Fugu-MT 論文翻訳(概要): Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

論文の概要: Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2602.09940v1
Date: Tue, 10 Feb 2026 16:25:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-11 20:17:43.678711
Title: Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation
Title（参考訳）: Instruct2Act:人間指導からロボット操作のためのロボット行動ネットワークによる行動シークエンシングと実行へ
Authors: Archit Sharma, Dharmendra Sharma, John Rebeiro, Peeyush Thakur, Narendra Dhar, Laxmidhar Behera,
Abstract要約: 我々は、自然言語コマンドを信頼性の高い操作に変換する軽量で完全なオンデバイスパイプラインを開発した。 Instruct2Actは91.5%のサブアクション予測精度を達成し、フットプリントは小さい。その結果, DATRNに基づく軌道生成と視覚誘導グラウンド化と相まって, 決定論的, リアルタイムな操作を行うための実践的な経路が得られた。
参考スコア（独自算出の注目度）: 14.833622989644352
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robots often struggle to follow free-form human instructions in real-world settings due to computational and sensing limitations. We address this gap with a lightweight, fully on-device pipeline that converts natural-language commands into reliable manipulation. Our approach has two stages: (i) the instruction to actions module (Instruct2Act), a compact BiLSTM with a multi-head-attention autoencoder that parses an instruction into an ordered sequence of atomic actions (e.g., reach, grasp, move, place); and (ii) the robot action network (RAN), which uses the dynamic adaptive trajectory radial network (DATRN) together with a vision-based environment analyzer (YOLOv8) to generate precise control trajectories for each sub-action. The entire system runs on a modest system with no cloud services. On our custom proprietary dataset, Instruct2Act attains 91.5% sub-actions prediction accuracy while retaining a small footprint. Real-robot evaluations across four tasks (pick-place, pick-pour, wipe, and pick-give) yield an overall 90% success; sub-action inference completes in < 3.8s, with end-to-end executions in 30-60s depending on task complexity. These results demonstrate that fine-grained instruction-to-action parsing, coupled with DATRN-based trajectory generation and vision-guided grounding, provides a practical path to deterministic, real-time manipulation in resource-constrained, single-camera settings.
Abstract（参考訳）: ロボットはしばしば、計算と感知の制限により、現実世界の設定において自由形式の人間の指示に従うのに苦労する。このギャップを、自然言語コマンドを信頼性のある操作に変換する軽量で完全にオンデバイスなパイプラインで解決する。私たちのアプローチには2つの段階があります。 i) アクションモジュールへの命令(Instruct2Act)、命令を順序づけられたアトミックアクション(例えば、到達、把握、移動、配置)のシーケンスにパースするマルチヘッドアテンションオートエンコーダを備えたコンパクトなBiLSTM。二動的適応軌道放射ネットワーク(DATRN)と視覚ベースの環境分析装置(YOLOv8)を用いて、各サブアクションに対して正確な制御軌跡を生成するロボット行動ネットワーク(RAN)。システム全体が、クラウドサービスのない控えめなシステムで動作する。私たちのカスタムプロプライエタリなデータセットでは、Instruct2Actは91.5%のサブアクション予測精度を達成し、小さなフットプリントを維持しています。 4つのタスク(ピック・プレース、ピック・パー、ワイプ、ピック・ギブ)におけるリアルタイムロボットの評価は、全体の90%の成功をもたらし、サブアクション推論は3.8秒未満で完了し、タスクの複雑さに応じて30～60秒でエンド・ツー・エンドの実行が完了する。これらの結果から, DATRNに基づく微粒な命令対アクション解析と, DATRNに基づくトラジェクトリ生成と視覚誘導的グラウンドニングが組み合わさって, 資源制約された単一カメラ設定における決定論的, リアルタイムな操作を実現するための実践的経路が示唆された。

関連論文リスト

Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons [69.87766750714945]
汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練される。本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。ロビオメーターは、専門家データに報酬等級を固定するフレームレベルのプログレス・ロスと、グローバルな順序制約を課す軌跡比較優先損失という2つの目的で訓練されている。
論文参考訳（メタデータ） (2026-03-02T17:38:58Z)
InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.89177083578213]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。 InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文参考訳（メタデータ） (2025-10-15T17:30:05Z)
Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。 Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文参考訳（メタデータ） (2025-09-11T17:59:07Z)
Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。 PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文参考訳（メタデータ） (2024-10-14T11:30:18Z)
Autoregressive Action Sequence Learning for Robotic Manipulation [32.9580007141312]
既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-04T04:07:15Z)
Affordance-based Robot Manipulation with Flow Matching [7.51335919610328]
本稿では,ロボット操作支援のためのフレームワークを提案する。第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文参考訳（メタデータ） (2024-09-02T09:11:28Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
Verifiably Following Complex Robot Instructions with Foundation Models [16.564788361518197]
動作計画のための言語指導基盤(LIMP)は、ロボットが事前に構築されたセマンティックマップを使わずに、現実の環境で複雑なオープンエンドの指示に従うことができるアプローチである。 LIMPは、インストラクターの意図したモチベーションとロボットのアライメントを明らかにする象徴的な指示表現を構築する。 5つの実環境における150の命令に対してLIMPを大規模に評価し、その汎用性とデプロイの容易さを示す。
論文参考訳（メタデータ） (2024-02-18T08:05:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。