論文の概要: CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model
- arxiv url: http://arxiv.org/abs/2508.10416v1
- Date: Thu, 14 Aug 2025 07:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.214872
- Title: CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model
- Title(参考訳): 自己補正型フライホイール「CorrectNav」のビジョン・ランゲージ・アクションナビゲーションモデル
- Authors: Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong,
- Abstract要約: 既存のヴィジュアル・アンド・ランゲージのナビゲーションモデルは、命令を実行する際に正しい軌道から逸脱することが多い。
本稿では,新しいポストトレーニングパラダイムである自己補正フライホイールを提案する。
我々は,これらの誤差軌跡の偏差を識別する手法を開発し,自己補正データを自動的に生成する革新的な手法を考案した。
- 参考スコア(独自算出の注目度): 7.796659680081126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision-and-language navigation models often deviate from the correct trajectory when executing instructions. However, these models lack effective error correction capability, hindering their recovery from errors. To address this challenge, we propose Self-correction Flywheel, a novel post-training paradigm. Instead of considering the model's error trajectories on the training set as a drawback, our paradigm emphasizes their significance as a valuable data source. We have developed a method to identify deviations in these error trajectories and devised innovative techniques to automatically generate self-correction data for perception and action. These self-correction data serve as fuel to power the model's continued training. The brilliance of our paradigm is revealed when we re-evaluate the model on the training set, uncovering new error trajectories. At this time, the self-correction flywheel begins to spin. Through multiple flywheel iterations, we progressively enhance our monocular RGB-based VLA navigation model CorrectNav. Experiments on R2R-CE and RxR-CE benchmarks show CorrectNav achieves new state-of-the-art success rates of 65.1% and 69.3%, surpassing prior best VLA navigation models by 8.2% and 16.4%. Real robot tests in various indoor and outdoor environments demonstrate \method's superior capability of error correction, dynamic obstacle avoidance, and long instruction following.
- Abstract(参考訳): 既存のヴィジュアル・アンド・ランゲージのナビゲーションモデルは、命令を実行する際に正しい軌道から逸脱することが多い。
しかし、これらのモデルには効果的なエラー訂正機能がなく、エラーからの回復を妨げている。
この課題に対処するために,新しいポストトレーニングパラダイムである自己補正フライホイールを提案する。
我々のパラダイムは、トレーニングセット上のモデルのエラー軌跡を欠点として考えるのではなく、貴重なデータソースとしての重要性を強調します。
我々は,これらの誤り軌跡の偏差を識別する手法を開発し,認識と行動のための自己補正データを自動的に生成する革新的な手法を考案した。
これらの自己補正データは、モデルの継続的な訓練を駆動する燃料として機能する。
我々のパラダイムの輝きは、トレーニングセット上でモデルを再評価し、新しいエラー軌跡を明らかにするときに明らかになる。
この時、自転するフライホイールが回転し始める。
複数のフライホイールの繰り返しを通じて、単眼のRGBベースのVLAナビゲーションモデルであるCorrectNavを徐々に強化する。
R2R-CEとRxR-CEベンチマークの実験では、CorrectNavは65.1%と69.3%の新しい最先端の成功率を達成した。
各種屋内・屋外環境における実ロボット実験は, 誤り訂正, 動的障害物回避, 続く長い指示の優れた能力を示す。
関連論文リスト
- SuperCorrect: Advancing Small LLM Reasoning with Thought Template Distillation and Self-Correction [89.56181323849512]
SuperCorrectは、大きな教師モデルを使用して、より小さな学生モデルの推論と反映の両方を監督し、修正する新しい2段階のフレームワークである。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - CovarNav: Machine Unlearning via Model Inversion and Covariance
Navigation [11.222501077070765]
機械学習は、訓練されたモデルに対する特定のトレーニングデータポイントの影響を選択的に除去する重要なテクニックとして登場した。
我々は,このことを忘れないように,CovarNavという3段階のプロセスを導入する。
CIFAR-10とVggface2データセット上でCovarNavを厳格に評価する。
論文 参考訳(メタデータ) (2023-11-21T21:19:59Z) - Avoidance Navigation Based on Offline Pre-Training Reinforcement
Learning [0.0]
本稿では,移動ロボットの地図を使わずに回避ナビゲーションを行うための,事前学習型深部強化学習(DRL)を提案する。
早期の非効率なランダム探索を高速化するために,効率的なオフライン学習戦略を提案する。
DRLモデルは, 異なる環境下で普遍的な汎用能力を有することを示した。
論文 参考訳(メタデータ) (2023-08-03T06:19:46Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。