論文の概要: Cross-Modal Instructions for Robot Motion Generation
- arxiv url: http://arxiv.org/abs/2509.21107v1
- Date: Thu, 25 Sep 2025 12:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.912273
- Title: Cross-Modal Instructions for Robot Motion Generation
- Title(参考訳): ロボット運動生成のためのクロスモーダルインストラクション
- Authors: William Barron, Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi,
- Abstract要約: 本稿では,ロボットが粗いアノテーションの形でデモによって形づくられる,クロスモーダルな指示からの学習を紹介する。
そこで,CrossInstructフレームワークを紹介した。このフレームワークは,視覚言語モデルに対する文脈入力の例として,クロスモーダル命令を統合する。
次に、VLMは小さな細調整されたモデルを反復的にクエリし、複数の2Dビュー上で所望の動作を合成する。
大規模VLMの推論をきめ細かなポインティングモデルに組み込むことで、CrossInstructは限られた指導例の環境を超えて一般化する実行可能なロボット動作を生成する。
- 参考スコア(独自算出の注目度): 7.445072780282545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Teaching robots novel behaviors typically requires motion demonstrations via teleoperation or kinaesthetic teaching, that is, physically guiding the robot. While recent work has explored using human sketches to specify desired behaviors, data collection remains cumbersome, and demonstration datasets are difficult to scale. In this paper, we introduce an alternative paradigm, Learning from Cross-Modal Instructions, where robots are shaped by demonstrations in the form of rough annotations, which can contain free-form text labels, and are used in lieu of physical motion. We introduce the CrossInstruct framework, which integrates cross-modal instructions as examples into the context input to a foundational vision-language model (VLM). The VLM then iteratively queries a smaller, fine-tuned model, and synthesizes the desired motion over multiple 2D views. These are then subsequently fused into a coherent distribution over 3D motion trajectories in the robot's workspace. By incorporating the reasoning of the large VLM with a fine-grained pointing model, CrossInstruct produces executable robot behaviors that generalize beyond the environment of in the limited set of instruction examples. We then introduce a downstream reinforcement learning pipeline that leverages CrossInstruct outputs to efficiently learn policies to complete fine-grained tasks. We rigorously evaluate CrossInstruct on benchmark simulation tasks and real hardware, demonstrating effectiveness without additional fine-tuning and providing a strong initialization for policies subsequently refined via reinforcement learning.
- Abstract(参考訳): ロボットに新しい行動を教えるには、通常、遠隔操作やキナエステによる動作デモ、つまり物理的にロボットを導く必要がある。
近年の研究では、人間のスケッチを使って望ましい振る舞いを指定する方法が検討されているが、データ収集は扱いにくいままであり、デモデータセットのスケーリングは困難である。
本稿では,自由形式のテキストラベルを格納し,物理的な動作の代わりに使用する,粗いアノテーションの形でロボットを形作る,クロスモーダル命令からの学習という代替パラダイムを紹介する。
そこで我々は,CrossInstructフレームワークを紹介した。このフレームワークは,基本視覚言語モデル(VLM)の文脈入力に,クロスモーダル命令を例として組み込む。
次に、VLMは小さな細調整されたモデルを反復的にクエリし、複数の2Dビュー上で所望の動作を合成する。
その後、これらはロボットの作業空間内の3次元運動軌道上のコヒーレントな分布に融合される。
大規模VLMの推論をきめ細かなポインティングモデルに組み込むことで、CrossInstructは限られた指導例の環境を超えて一般化する実行可能なロボット動作を生成する。
次に、CrossInstruct出力を活用して、詳細なタスクを完了するためのポリシーを効率的に学習する下流強化学習パイプラインを導入します。
我々は、ベンチマークシミュレーションタスクと実際のハードウェア上でCrossInstructを厳格に評価し、追加の微調整なしで有効性を証明し、強化学習によって改善されたポリシーの強力な初期化を提供する。
関連論文リスト
- AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making [35.83717913117858]
AntiGroundingは、命令のグラウンディングプロセスをリバースする新しいフレームワークである。
候補アクションをVLM表現空間に直接持ち上げる。
複数のビューからトラジェクトリを描画し、命令ベースの意思決定に構造化された視覚的質問応答を使用する。
論文 参考訳(メタデータ) (2025-06-14T07:11:44Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Instructing Robots by Sketching: Learning from Demonstration via Probabilistic Diagrammatic Teaching [14.839036866911089]
Learning for Demonstration (LfD)は、ロボットが専門家のデモを模倣し、ユーザーが直感的に指示を伝えることを可能にする。
近年のLfDの進歩は、ユーザがデモを指定するための媒体として、審美的教育や遠隔操作に依存していることが多い。
本稿では,LfDの代替パラダイムであるダイアグラム教育を紹介する。
論文 参考訳(メタデータ) (2023-09-07T16:49:38Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。