論文の概要: NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards
- arxiv url: http://arxiv.org/abs/2511.14659v1
- Date: Tue, 18 Nov 2025 16:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.222083
- Title: NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards
- Title(参考訳): NORA-1.5:世界モデルとアクション・ベース・プレファレンス・リワードを用いたビジョン・ランゲージ・アクション・モデル
- Authors: Chia-Yu Hung, Navonil Majumder, Haoyuan Deng, Liu Renhang, Yankang Ang, Amir Zadeh, Chuan Li, Dorien Herremans, Ziwei Wang, Soujanya Poria,
- Abstract要約: 視覚言語アクション(VLA)モデルは、最近様々な具体的タスクにおいて有望な性能を示したが、信頼性と一般化が不足している。
トレーニング済みのNORAバックボーンから構築したVLAモデルであるNORA-1.5について,フローマッチングに基づくアクションエキスパートを付加して紹介する。
堅牢性とタスクの成功をさらに改善するため、我々はVLAポリシーの訓練後の報酬モデルを開発した。
- 参考スコア(独自算出の注目度): 41.87267797252411
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision--language--action (VLA) models have recently shown promising performance on a variety of embodied tasks, yet they still fall short in reliability and generalization, especially when deployed across different embodiments or real-world environments. In this work, we introduce NORA-1.5, a VLA model built from the pre-trained NORA backbone by adding to it a flow-matching-based action expert. This architectural enhancement alone yields substantial performance gains, enabling NORA-1.5 to outperform NORA and several state-of-the-art VLA models across both simulated and real-world benchmarks. To further improve robustness and task success, we develop a set of reward models for post-training VLA policies. Our rewards combine (i) an action-conditioned world model (WM) that evaluates whether generated actions lead toward the desired goal, and (ii) a deviation-from-ground-truth heuristic that distinguishes good actions from poor ones. Using these reward signals, we construct preference datasets and adapt NORA-1.5 to target embodiments through direct preference optimization (DPO). Extensive evaluations show that reward-driven post-training consistently improves performance in both simulation and real-robot settings, demonstrating significant VLA model-reliability gains through simple yet effective reward models. Our findings highlight NORA-1.5 and reward-guided post-training as a viable path toward more dependable embodied agents suitable for real-world deployment.
- Abstract(参考訳): 視覚-言語-アクション(VLA)モデルは、最近様々な実施タスクにおいて有望なパフォーマンスを示したが、信頼性と一般化が不足している。
本研究では,NORAバックボーンから構築したVLAモデルであるNORA-1.5を紹介する。
このアーキテクチャの強化だけで、NORA-1.5はNORAといくつかの最先端のVLAモデルをシミュレートおよび実世界のベンチマークで上回り、大幅な性能向上をもたらす。
堅牢性とタスクの成功をさらに改善するため、我々はVLAポリシーの訓練後の報酬モデルを開発した。
報酬が合わさって
一 生成した行動が所望の目標に導くか否かを評価する行動条件世界モデル(WM)
(二)善行と悪行を区別する地道からの逸脱。
これらの報奨信号を用いて、嗜好データセットを構築し、直接選好最適化(DPO)によりNORA-1.5を適用して実施する。
大規模な評価では、報酬駆動のポストトレーニングはシミュレーションと実ロボット設定の両方のパフォーマンスを継続的に改善し、単純かつ効果的な報酬モデルを通じて、VLAモデル-信頼性の顕著な向上を示す。
以上の結果から,NORA-1.5および報酬誘導型ポストトレーニングは,実世界の展開に適した,より信頼性の高いエンボディエージェントへの道のりとして注目された。
関連論文リスト
- VLA-R1: Enhancing Reasoning in Vision-Language-Action Models [35.264042764326895]
VLA(Vision-Language-Action)モデルは、知覚、言語理解、行動生成を統一することを目的としている。
現在のVLAモデルは、しばしば明示的なステップバイステップ推論を欠いている。
本稿では,検証リワードからの強化学習を統合した推論強化VLAであるVLA-R1を提案する。
論文 参考訳(メタデータ) (2025-10-02T02:54:03Z) - Reinforcement Learning with Inverse Rewards for World Model Post-training [29.19830208692156]
ビデオワールドモデルにおける動作追跡を改善するために,逆回帰を用いた強化学習を提案する。
RLIRは、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元することにより、検証可能な報酬信号を導出する。
論文 参考訳(メタデータ) (2025-09-28T16:27:47Z) - Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning [31.796328505473305]
UI-R1は、ルールベースのRLがGUIアクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力をどのように向上するかを探求する最初のフレームワークである。
具体的には、UI-R1が新しいルールベースのアクション報酬を導入し、グループ相対ポリシー最適化(GRPO)のようなポリシーベースのアルゴリズムによるモデル最適化を可能にする。
効率的なトレーニングのために、モバイルデバイス上で5つの一般的なアクションタイプを含む136の課題タスクからなる、小さくて高品質なデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-27T15:39:30Z) - Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning [26.14137626882127]
LVLM(Large Vision-Language Models)は通常、2段階の訓練パラダイムの事前訓練と教師付き微調整を行う。
言語領域から派生した嗜好最適化は,学習後強化戦略として有効である。
本稿では,LVLMのための新しい視覚誘導型R1様強化学習アルゴリズムであるVision-R1を提案する。
論文 参考訳(メタデータ) (2025-03-23T10:21:14Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。