論文の概要: CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control
- arxiv url: http://arxiv.org/abs/2601.22467v1
- Date: Fri, 30 Jan 2026 02:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.164825
- Title: CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control
- Title(参考訳): CARE:ロボット制御における潜時連続行動表現のためのマルチタスク事前訓練
- Authors: Jiaqi Shi, Xulong Zhang, Xiaoyang Qu, Jianzong Wang,
- Abstract要約: CAREは、ロボットタスク実行のためのVLAモデルをトレーニングするために設計されたフレームワークである。
CAREはビデオテキストペアのみを活用することで、明示的なアクションラベルの必要性を排除している。
結果は, ロボット制御におけるCAREのスケーラビリティ, 解釈可能性, 有効性を示す。
- 参考スコア(独自算出の注目度): 39.17038025776311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language-Action (VLA) models have shown promise for robot control, but their dependence on action supervision limits scalability and generalization. To address this challenge, we introduce CARE, a novel framework designed to train VLA models for robotic task execution. Unlike existing methods that depend on action annotations during pretraining, CARE eliminates the need for explicit action labels by leveraging only video-text pairs. These weakly aligned data sources enable the model to learn continuous latent action representations through a newly designed multi-task pretraining objective. During fine-tuning, a small set of labeled data is used to train the action head for control. Experimental results across various simulation tasks demonstrate CARE's superior success rate, semantic interpretability, and ability to avoid shortcut learning. These results underscore CARE's scalability, interpretability, and effectiveness in robotic control with weak supervision.
- Abstract(参考訳): 近年のVision-Language-Action(VLA)モデルの進歩はロボット制御の可能性を示唆しているが、その動作監督への依存はスケーラビリティと一般化を制限している。
この課題に対処するために,ロボットタスク実行のためのVLAモデルをトレーニングするための新しいフレームワークであるCAREを紹介する。
事前トレーニング中のアクションアノテーションに依存する既存のメソッドとは異なり、CAREはビデオテキストペアのみを活用することで、明示的なアクションラベルの必要性を排除している。
これらの弱い整列したデータソースは、新しく設計されたマルチタスク事前学習目標を通じて、モデルが連続的な潜在アクション表現を学習することを可能にする。
微調整中は、アクションヘッドをトレーニングするためにラベル付きデータの小さなセットが使用される。
様々なシミュレーションタスクによる実験結果は、CAREの優れた成功率、意味解釈可能性、ショートカット学習を避ける能力を示す。
これらの結果は, ロボット制御におけるCAREのスケーラビリティ, 解釈可能性, 有効性を評価するものである。
関連論文リスト
- IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文 参考訳(メタデータ) (2024-11-27T03:33:42Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。