Fugu-MT 論文翻訳(概要): From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

論文の概要: From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2603.15600v1
Date: Mon, 16 Mar 2026 17:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:58.717441
Title: From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation
Title（参考訳）: パッシブオブザーバからアクティブ批判へ:ロボットマニピュレーションのための強化学習
Authors: Yibin Liu, Yaxing Lyu, Daqi Gao, Zhixuan Liang, Weiliang Tang, Shilong Mu, Xiaokang Yang, Yao Mu,
Abstract要約: PRIMO R1はビデオMLLMをアクティブな「批判」に変換する7Bフレームワーク我々は、結果に基づく強化学習を活用して、進捗推定のための明示的な連鎖生成をインセンティブ化する。 67.0%の精度でRoboFailベンチマークの最先端のパフォーマンスを確立し、OpenAI o1のようなクローズドソースモデルを6.2%上回った。
参考スコア（独自算出の注目度）: 32.41847293364159
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate process supervision remains a critical challenge for long-horizon robotic manipulation. A primary bottleneck is that current video MLLMs, trained primarily under a Supervised Fine-Tuning (SFT) paradigm, function as passive "Observers" that recognize ongoing events rather than evaluating the current state relative to the final task goal. In this paper, we introduce PRIMO R1 (Process Reasoning Induced Monitoring), a 7B framework that transforms video MLLMs into active "Critics". We leverage outcome-based Reinforcement Learning to incentivize explicit Chain-of-Thought generation for progress estimation. Furthermore, our architecture constructs a structured temporal input by explicitly anchoring the video sequence between initial and current state images. Supported by the proposed PRIMO Dataset and Benchmark, extensive experiments across diverse in-domain environments and out-of-domain real-world humanoid scenarios demonstrate that PRIMO R1 achieves state-of-the-art performance. Quantitatively, our 7B model achieves a 50% reduction in the mean absolute error of specialized reasoning baselines, demonstrating significant relative accuracy improvements over 72B-scale general MLLMs. Furthermore, PRIMO R1 exhibits strong zero-shot generalization on difficult failure detection tasks. We establish state-of-the-art performance on RoboFail benchmark with 67.0% accuracy, surpassing closed-source models like OpenAI o1 by 6.0%.
Abstract（参考訳）: 正確なプロセスの監督は、長年にわたるロボット操作にとって重要な課題である。主なボトルネックは、主にスーパービジョンファインチューニング(SFT)パラダイムの下で訓練された現在のビデオMLLMが、最終タスク目標に対する現在の状態を評価するのではなく、進行中のイベントを認識する受動的"オブザーバ"として機能することである。本稿では,ビデオMLLMをアクティブな"Critics"に変換する7BフレームワークであるPRIMO R1(Process Reasoning induced Monitoring)を紹介する。我々は、結果に基づく強化学習を活用して、進捗推定のための明示的な連鎖生成をインセンティブ化する。さらに,本アーキテクチャでは,初期画像と現像画像の間にビデオシーケンスを明示的に固定することにより,時間的構造的入力を構築する。提案されたPRIMOデータセットとBenchmarkによってサポートされ、さまざまなドメイン内環境とドメイン外の実世界のヒューマノイドシナリオにわたる広範な実験により、PRIMO R1が最先端のパフォーマンスを達成することを示す。定量的には, 72Bスケールの一般MLLMに対して, 平均絶対誤差を50%低減し, 相対精度を著しく向上した。さらに、PRIMO R1は、困難な故障検出タスクに対して強いゼロショットの一般化を示す。 67.0%の精度でRoboFailベンチマークの最先端のパフォーマンスを確立し、OpenAI o1のようなクローズドソースモデルを6.0%上回った。

関連論文リスト

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。 SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文参考訳（メタデータ） (2026-03-10T07:22:51Z)
Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。 SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文参考訳（メタデータ） (2026-02-25T06:58:06Z)
TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics [46.912038830356714]
本稿では,ロボット作業の進捗を推定する時間的価値関数TOPRewardを紹介する。 130以上の異なる実世界のタスクに対するゼロショット評価では、TOPRewardはQwen3-VL上で0.947の平均値順序相関(VOC)を達成する。我々は,TOPRewardがダウンストリームアプリケーションのための汎用ツールであることを示す。
論文参考訳（メタデータ） (2026-02-22T19:25:48Z)
Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。 GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。 LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文参考訳（メタデータ） (2026-02-22T15:39:34Z)
VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文参考訳（メタデータ） (2025-12-31T16:31:59Z)
TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models [29.878993349922368]
Vision-Language-Action (VLA)モデルは、ロボット操作タスクに固有の貴重な時間情報を捨て、各タイミングで視覚入力を独立に処理する。本稿では,VLA推論品質を向上させるために,歴史的および現在の視覚表現を統合した訓練不要なTTFを提案する。
論文参考訳（メタデータ） (2025-08-15T12:03:34Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文参考訳（メタデータ） (2025-05-26T12:05:16Z)
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文参考訳（メタデータ） (2025-05-13T13:20:46Z)
Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文参考訳（メタデータ） (2025-04-05T16:25:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。