Fugu-MT 論文翻訳(概要): IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation

論文の概要: IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation

arxiv url: http://arxiv.org/abs/2602.20715v1
Date: Tue, 24 Feb 2026 09:19:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.664268
Title: IG-RFT: An Interaction-Guided RL Framework for VLA Models in Long-Horizon Robotic Manipulation
Title（参考訳）: IG-RFT:長軸ロボットマニピュレーションにおけるVLAモデルのための対話型RLフレームワーク
Authors: Zhian Su, Weijie Kong, Haonan Dong, Huixu Dong,
Abstract要約: VLA(Vision-Language-Action)モデルは、ジェネラリストのロボット政策において大きな可能性を示している。彼らは、分散シフトと高品質なデモンストレーションの不足により、新しい現実世界の領域における長期の複雑なタスクへの一般化に苦慮している。本稿では,フローベースVLAモデル用に設計された対話型強化微細チューニングシステムIG-RFTを提案する。
参考スコア（独自算出の注目度）: 2.7426517026004196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models have demonstrated significant potential for generalist robotic policies; however, they struggle to generalize to long-horizon complex tasks in novel real-world domains due to distribution shifts and the scarcity of high-quality demonstrations. Although reinforcement learning (RL) offers a promising avenue for policy improvement, applying it to real-world VLA fine-tuning faces challenges regarding exploration efficiency, training stability, and sample cost. To address these issues, we propose IG-RFT, a novel Interaction-Guided Reinforced Fine-Tuning system designed for flow-based VLA models. Firstly, to facilitate effective policy optimization, we introduce Interaction-Guided Advantage Weighted Regression (IG-AWR), an RL algorithm that dynamically modulates exploration intensity based on the robot's interaction status. Furthermore, to address the limitations of sparse or task-specific rewards, we design a novel hybrid dense reward function that integrates the trajectory-level reward and the subtask-level reward. Finally, we construct a three-stage RL system comprising SFT, Offline RL, and Human-in-the-Loop RL for fine-tuning VLA models. Extensive real-world experiments on four challenging long-horizon tasks demonstrate that IG-RFT achieves an average success rate of 85.0%, significantly outperforming SFT (18.8%) and standard Offline RL baselines (40.0%). Ablation studies confirm the critical contributions of IG-AWR and hybrid reward shaping. In summary, our work establishes and validates a novel reinforced fine-tuning system for VLA models in real-world robotic manipulation.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、一般のロボット政策において大きな可能性を示しているが、分散シフトや高品質なデモンストレーションの不足により、新しい現実世界の領域における長期の複雑なタスクへの一般化に苦慮している。強化学習(RL)は、政策改善のための有望な道を提供するが、実際のVLAの微調整は、探索効率、訓練安定性、サンプルコストに関する課題に直面している。これらの問題に対処するために,フローベースVLAモデル用に設計された対話型強化ファインタニングシステムIG-RFTを提案する。まず、効果的なポリシー最適化を容易にするために、ロボットのインタラクション状態に基づいて探索強度を動的に変調するRLアルゴリズムであるInteraction-Guided Advantage Weighted Regression (IG-AWR)を導入する。さらに、スパースやタスク固有の報酬の制限に対処するため、トラジェクトリレベルの報酬とサブタスクレベルの報酬を統合するハイブリッドな報酬関数を設計する。最後に,SFT,Offline RL,Human-in-the-Loop RLからなる3段階のRLシステムを構築し,VLAモデルを微調整する。 4つの挑戦的な長距離タスクに関する大規模な実世界実験は、IG-RFTが平均成功率85.0%、SFT(18.8%)と標準オフラインRLベースライン(40.0%)を大きく上回っていることを示した。アブレーション研究はIG-AWRとハイブリッド報酬形成の重要な貢献を裏付ける。要約して,本研究は,実世界のロボット操作において,VLAモデルのための改良された微調整システムを確立し,検証する。

関連論文リスト

AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models [21.204182133307047]
本稿では,完全に非同期で疎結合なRLフレームワークであるAceRLを提案する。 AcceRLは、プラグ&プレイ可能なトレーニング可能なワールドモデルを分散非同期RLパイプラインに統合する最初の方法である。 LIBEROベンチマークの実験では、AceRLがSOTA(State-of-the-art)のパフォーマンスを達成した。
論文参考訳（メタデータ） (2026-03-19T03:50:45Z)
Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。 SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文参考訳（メタデータ） (2026-02-25T06:58:06Z)
VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators [38.880852900641]
VLA(Vision-Language-Action)モデルは、具体的意思決定を可能にするが、模倣学習に大きく依存する。制御可能なシミュレータとしてデータ駆動世界モデルを利用する強化微調整フレームワークであるVLA-RFTを紹介する。 400歩未満の微調整ステップで、VLA-RFTは強い教師付きベースラインを超え、シミュレータベースのRLよりも高い効率を達成する。
論文参考訳（メタデータ） (2025-10-01T01:33:10Z)
Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文参考訳（メタデータ） (2025-09-23T16:15:42Z)
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。これらのモデルは2つの根本的な課題に直面している。 VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文参考訳（メタデータ） (2025-09-11T17:59:17Z)
CO-RFT: Efficient Fine-Tuning of Vision-Language-Action Models through Chunked Offline Reinforcement Learning [7.780242426487376]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのための新しい強化学習フレームワークであるチャンクドRLを提案する。このフレームワーク内では、VLAモデルの顕著な特徴であるアクションチャンキングを組み込むために、時間差(TD)学習を拡張する。次に、限定的なデモセットを用いてVLAモデルを微調整するアルゴリズムであるCO-RFTを提案する。
論文参考訳（メタデータ） (2025-08-04T09:11:48Z)
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。 VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文参考訳（メタデータ） (2025-05-24T14:42:51Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。