論文の概要: TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics
- arxiv url: http://arxiv.org/abs/2602.19313v1
- Date: Sun, 22 Feb 2026 19:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.579961
- Title: TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics
- Title(参考訳): TOPReward:ロボティクスのゼロショットリワードとしてのToken確率
- Authors: Shirui Chen, Cole Harrison, Ying-Chun Lee, Angela Jin Yang, Zhongzheng Ren, Lillian J. Ratliff, Jiafei Duan, Dieter Fox, Ranjay Krishna,
- Abstract要約: 本稿では,ロボット作業の進捗を推定する時間的価値関数TOPRewardを紹介する。
130以上の異なる実世界のタスクに対するゼロショット評価では、TOPRewardはQwen3-VL上で0.947の平均値順序相関(VOC)を達成する。
我々は,TOPRewardがダウンストリームアプリケーションのための汎用ツールであることを示す。
- 参考スコア(独自算出の注目度): 46.912038830356714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language-Action (VLA) models have seen rapid progress in pretraining, their advancement in Reinforcement Learning (RL) remains hampered by low sample efficiency and sparse rewards in real-world settings. Developing generalizable process reward models is essential for providing the fine-grained feedback necessary to bridge this gap, yet existing temporal value functions often fail to generalize beyond their training domains. We introduce TOPReward, a novel, probabilistically grounded temporal value function that leverages the latent world knowledge of pretrained video Vision-Language Models (VLMs) to estimate robotic task progress. Unlike prior methods that prompt VLMs to directly output progress values, which are prone to numerical misrepresentation, TOPReward extracts task progress directly from the VLM's internal token logits. In zero-shot evaluations across 130+ distinct real-world tasks and multiple robot platforms (e.g., Franka, YAM, SO-100/101), TOPReward achieves 0.947 mean Value-Order Correlation (VOC) on Qwen3-VL, dramatically outperforming the state-of-the-art GVL baseline which achieves near-zero correlation on the same open-source model. We further demonstrate that TOPReward serves as a versatile tool for downstream applications, including success detection and reward-aligned behavior cloning.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルでは事前訓練の急速な進歩が見られるが、RL(Reinforcement Learning)の進歩は、実際の環境でのサンプル効率の低下とスパース報酬によって妨げられている。
一般化可能なプロセス報酬モデルを開発することは、このギャップを埋めるために必要なきめ細かいフィードバックを提供するために不可欠である。
ToPRewardは,ロボット作業の進捗を推定するために,事前訓練されたビデオビジョン・ランゲージ・モデル(VLM)の潜時的知識を活用する,確率的に基礎付けられた時間的価値関数である。
TOPRewardは、VLMの内部トークンロジットから直接タスク進捗を抽出する。
130以上の異なる実世界のタスクと複数のロボットプラットフォーム(例えば、Franka、YAM、SO-100/101)のゼロショット評価において、TOPRewardはQwen3-VL上で0.947の平均値順序相関(VOC)を達成する。
さらに,TOPRewardがダウンストリームアプリケーションのための汎用ツールであることを示す。
関連論文リスト
- SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models [42.89413870143421]
VLA(Vision-Language-Action)モデルはロボット操作に優れるが、専門家によるデモンストレーションに大きく依存している。
グループベースの最適化手法を含む現在のVLA-RL法は、深刻な報酬の分散によって損なわれている。
本稿では,新しいVLA-RLフレームワークである自己参照ポリシー最適化(SRPO)を提案する。
論文 参考訳(メタデータ) (2025-11-19T16:52:23Z) - A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning [26.546473157595482]
本稿では、InternVL上に構築された一般的なプロセス報酬モデルであるVLACを紹介する。
密度の高い進行デルタと完了信号を出力し、タスク固有の報酬工学を除去する。
VLACは、知覚、ダイアログ、推論能力を強化するために、視覚言語データセットに基づいて訓練されている。
論文 参考訳(メタデータ) (2025-09-19T12:44:29Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。