論文の概要: How to Instruct Your Robot: Dense Language Annotations Power Robot Policy Learning
- arxiv url: http://arxiv.org/abs/2605.17077v1
- Date: Sat, 16 May 2026 16:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.598011
- Title: How to Instruct Your Robot: Dense Language Annotations Power Robot Policy Learning
- Title(参考訳): ロボットに教える: 強力なロボットポリシー学習のための言語アノテーション
- Authors: Bosung Kim, Ruiyi Wang, David Acuna, Jaehun Jung, Alexander Trevithick, Brandon Cui, Yejin Choi, Prithviraj Ammanabrolu,
- Abstract要約: デモセグメントをVLM生成アノテーションでラベル付けする2段階のアプローチであるDeMiAnを紹介する。
学習したインストラクターがタスク記述と初期シーンスナップショットをデプロイ時にタスクに適したアノテーションにマップする。
RoboCasaでは、インストラクターはタスクのみのベースラインで5ポイント成功し、タスクごとのオラクルの3ポイント以内に到達する。
- 参考スコア(独自算出の注目度): 69.68882580009982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling robot policy learning is bottlenecked by the cost of collecting demonstrations, while language annotations for existing demonstrations are comparatively cheap. We study language density as a lever for extracting more signal from a fixed robot or egocentric-video corpus. We introduce DeMiAn (Dense Multi-aspect Annotation), a two-stage approach that first re-labels demonstration segments with VLM-generated annotations along four complementary aspects: physical motion, scene composition, arm pose, and reasoning. A learned instructor then maps a task description and initial scene snapshot to a task-appropriate annotation at deployment, running asynchronously so generation latency is hidden behind policy execution. Across over 1M robot manipulation clips and 50K EgoVerse human-egocentric videos, DeMiAn improves both a vision-language-action policy and a video-based world-action model without collecting new demonstrations. On RoboCasa, the instructor raises success by 5 points over a task-only baseline and comes within 3 points of a per-task oracle. No fixed annotation aspect dominates across tasks, showing that selecting the right dense language matters. DeMiAn also improves composite-task and out-of-distribution performance, and shifts the compute-performance frontier in both mid-training and post-training after accounting for annotation-generation FLOPs. These results position dense re-annotation as a practical scaling lever for robot policy learning.
- Abstract(参考訳): ロボットポリシー学習のスケーリングは、デモ収集のコストによってボトルネックになり、既存のデモのための言語アノテーションは比較的安価である。
固定されたロボットやエゴセントリックビデオコーパスからより多くの信号を抽出するためのレバーとしての言語密度について検討した。
DeMiAn(Dense Multi-aspect Annotation)は、VLM生成アノテーションを用いたデモセグメントを物理モーション、シーン構成、アームポーズ、推論の4つの相補的な側面に沿って再ラベルする2段階のアプローチである。
学習したインストラクターは、タスク記述と初期シーンスナップショットをデプロイ時にタスクに適したアノテーションにマッピングする。
100万本以上のロボット操作クリップと50万本以上のEgoVerseの人間中心のビデオに加えて、DeMiAnは視覚言語アクションポリシーとビデオベースのワールドアクションモデルの両方を改善して、新しいデモを収集する。
RoboCasaでは、インストラクターはタスクのみのベースラインで5ポイント成功し、タスクごとのオラクルの3ポイント以内に到達する。
タスク全体において固定アノテーションの側面が支配的であり、適切な高密度言語を選択することが重要であることを示している。
DeMiAnはまた、複合タスクとアウト・オブ・ディストリビューション性能を改善し、アノテーション生成FLOPを考慮に入れた後に、中級トレーニングと後級トレーニングの両方で計算性能のフロンティアをシフトする。
これらの結果は、ロボットポリシー学習の実践的なスケーリングレバーとして、密集した再アノテーションを位置づけている。
関連論文リスト
- Proprioception Enhances Vision Language Model in Generating Captions and Subtask Segmentations for Robot Task [3.4735198125706326]
ビジョン言語モデル(VLM)は、トレーニングデータセットにロボットからの低レベルのモーション情報を含まない。
本研究では,低レベルロボット動作情報を用いたビデオキャプションタスクにより,VLMの2つの機能を評価する。
論文 参考訳(メタデータ) (2025-12-24T01:36:12Z) - Instant Policy: In-Context Imitation Learning via Graph Diffusion [12.879700241782528]
In-context Imitation Learning (ICIL)は、ロボット工学にとって有望な機会である。
Instant Policyを導入し、たった1、2つのデモからすぐに新しいタスクを学習します。
また,言語定義タスクへのクロスボデーメントやゼロショット転送の基盤として機能することを示す。
論文 参考訳(メタデータ) (2024-11-19T16:45:52Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。