Fugu-MT 論文翻訳(概要): ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

論文の概要: ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy

arxiv url: http://arxiv.org/abs/2502.05450v1
Date: Sat, 08 Feb 2025 05:01:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:49.736261
Title: ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy
Title（参考訳）: ConRFT:一貫性ポリシによるVLAモデルの強化微調整法
Authors: Yuhui Chen, Shuai Tian, Shugao Liu, Yingting Zhou, Haoran Li, Dongbin Zhao,
Abstract要約: VLA(Vision-Language-Action)モデルは、現実世界のロボット操作において大きな可能性を示している。これらのモデルを教師付き学習で微調整することで、制限された一貫性のないデモのために堅牢なパフォーマンスを達成することができる。我々は,オフラインとオンラインのファインチューニングで構成されるConRFTという,VLAモデルのための強化されたファインチューニング手法を提案する。
参考スコア（独自算出の注目度）: 10.596344084789434
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models have shown substantial potential in real-world robotic manipulation. However, fine-tuning these models through supervised learning struggles to achieve robust performance due to limited, inconsistent demonstrations, especially in contact-rich environments. In this paper, we propose a reinforced fine-tuning approach for VLA models, named ConRFT, which consists of offline and online fine-tuning with a unified consistency-based training objective, to address these challenges. In the offline stage, our method integrates behavior cloning and Q-learning to effectively extract policy from a small set of demonstrations and stabilize value estimating. In the online stage, the VLA model is further fine-tuned via consistency policy, with human interventions to ensure safe exploration and high sample efficiency. We evaluate our approach on eight diverse real-world manipulation tasks. It achieves an average success rate of 96.3% within 45-90 minutes of online fine-tuning, outperforming prior supervised methods with a 144% improvement in success rate and 1.9x shorter episode length. This work highlights the potential of integrating reinforcement learning to enhance the performance of VLA models for real-world robotic applications.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、現実世界のロボット操作において大きな可能性を示している。しかし、これらのモデルを教師付き学習を通して微調整することで、特に接触豊かな環境において、限定的で一貫性のないデモのために堅牢なパフォーマンスを達成することができる。本稿では、これらの課題に対処するために、オフラインおよびオンラインのファインチューニングと統合された一貫性に基づくトレーニング目標を組み合わせた、VLAモデルの強化された微調整手法であるConRFTを提案する。オフラインの段階では、動作のクローン化とQ-ラーニングを統合して、少数の実演からポリシーを効果的に抽出し、評価値を安定化する。オンラインの段階では、VLAモデルは、安全な探索と高いサンプル効率を確保するための人間の介入によって、一貫性ポリシーを介してさらに微調整される。我々は,8つの実世界操作タスクに対するアプローチを評価した。 45-90分以内の平均成功率は96.3%であり、144%の成功率と1.9倍の短いエピソード長で先行監督された方法よりも優れていた。この研究は、実世界のロボット応用のためのVLAモデルの性能を高めるために強化学習を統合する可能性を強調している。

関連論文リスト

CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning [7.780242426487376]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのための新しい強化学習フレームワークであるチャンクドRLを提案する。このフレームワーク内では、VLAモデルの顕著な特徴であるアクションチャンキングを組み込むために、時間差(TD)学習を拡張する。次に、限定的なデモセットを用いてVLAモデルを微調整するアルゴリズムであるCO-RFTを提案する。
論文参考訳（メタデータ） (2025-08-04T09:11:48Z)
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。 VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文参考訳（メタデータ） (2025-05-24T14:42:51Z)
Interactive Post-Training for Vision-Language-Action Models [28.32397816792674]
RIPT-VLAは、シンプルでスケーラブルな強化学習に基づくインタラクティブなポストトレーニングパラダイムである。 RIPT-VLAファインチューンで訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、わずかに二進的な成功報酬のみを使用する。 1つのデモだけで、RIPT-VLAは15イテレーションで97%の成功率で作業不能なSFTモデルを成功させることができる。
論文参考訳（メタデータ） (2025-05-22T17:59:45Z)
Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding [24.1236728596359]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。本稿では,アクションチャンキングと統合されたVLAモデルのための最初の並列デコーディングフレームワークであるPD-VLAを提案する。本フレームワークは,並列な固定点反復によって解く非線形システムとして自己回帰復号を再構成する。
論文参考訳（メタデータ） (2025-03-04T06:12:08Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
Improving Vision-Language-Action Model with Online Reinforcement Learning [17.043068379668842]
近年の研究では、教師付き微調整により、大規模視覚言語モデルを低レベルロボット制御に統合することに成功した。 VLAモデルを効果的に改善するために、強化学習と監視学習を反復するiRe-VLAフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-28T02:53:48Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。 CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文参考訳（メタデータ） (2024-12-09T18:59:18Z)
GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。 GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。 GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文参考訳（メタデータ） (2024-11-28T18:30:10Z)
Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文参考訳（メタデータ） (2024-07-14T21:41:29Z)
FOSP: Fine-tuning Offline Safe Policy through World Models [3.7971075341023526]
モデルに基づく強化学習(RL)は、高次元タスクを扱う訓練効率と能力を示した。しかしながら、以前の作業は、実際のデプロイメントにおけるオンライン探索のために、依然として安全上の課題を生じさせている。本稿では、オフラインで訓練されたポリシーを微調整することで、視覚に基づくロボットタスクの展開段階における安全性をさらに向上することを目的とする。
論文参考訳（メタデータ） (2024-07-06T03:22:57Z)
OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳（メタデータ） (2024-06-13T15:46:55Z)
Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。 LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T15:47:00Z)
MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文参考訳（メタデータ） (2024-01-06T21:04:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。