論文の概要: Rewarding DINO: Predicting Dense Rewards with Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2603.16978v1
- Date: Tue, 17 Mar 2026 13:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.31952
- Title: Rewarding DINO: Predicting Dense Rewards with Vision Foundation Models
- Title(参考訳): DINOのリワード:ビジョンベースモデルによるディエンスリワード予測
- Authors: Pierre Krack, Tobias Jülg, Wolfram Burgard, Florian Walter,
- Abstract要約: ロボット操作において、よく設計された高密度報酬関数は、タスクが完了したかどうかを示すが、その過程で進行をエンコードする。
本稿では,特定の軌道ではなく,実際の報酬関数を学習する言語条件付報酬モデリング手法であるRewarding DINOを紹介する。
我々は,24のMeta-World+タスクから抽出したデータをランクベース損失を用いて学習し,ペアワイズ精度,ランク相関,キャリブレーションを評価する。
- 参考スコア(独自算出の注目度): 13.236640565210477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Well-designed dense reward functions in robot manipulation not only indicate whether a task is completed but also encode progress along the way. Generally, designing dense rewards is challenging and usually requires access to privileged state information available only in simulation, not in real-world experiments. This makes reward prediction models that infer task state information from camera images attractive. A common approach is to predict rewards from expert demonstrations based on visual similarity or sequential frame ordering. However, this biases the resulting reward function towards a specific solution and leaves it undefined in states not covered by the demonstrations. In this work, we introduce Rewarding DINO, a method for language-conditioned reward modeling that learns actual reward functions rather than specific trajectories. The model's compact size allows it to serve as a direct replacement for analytical reward functions with comparatively low computational overhead. We train our model on data sampled from 24 Meta-World+ tasks using a rank-based loss and evaluate pairwise accuracy, rank correlation, and calibration. Rewarding DINO achieves competitive performance in tasks from the training set and generalizes to new settings in simulation and the real world, indicating that it learns task semantics. We also test the model with off-the-shelf reinforcement learning algorithms to solve tasks from our Meta-World+ training set.
- Abstract(参考訳): ロボット操作におけるよく設計された高密度報酬関数は、タスクが完了しただけでなく、その過程での進捗をエンコードする。
一般に、密集した報酬を設計することは困難であり、通常、実世界の実験ではなくシミュレーションでのみ利用できる特権状態情報にアクセスする必要がある。
これにより、カメラ画像からタスク状態情報を推測する報酬予測モデルが魅力的になる。
一般的なアプローチは、視覚的類似性やシーケンシャルなフレーム順序に基づいて、専門家によるデモンストレーションから報酬を予測することである。
しかし、これは結果の報酬関数を特定の解に偏り、実演ではカバーされない状態で未定義のままにしておく。
本研究では,特定の軌道ではなく,実際の報酬関数を学習する言語条件付報酬モデリング手法であるRewarding DINOを紹介する。
このモデルのコンパクトサイズは、比較的計算オーバーヘッドの少ない解析的報酬関数の直接置換として機能する。
我々は,24のMeta-World+タスクから抽出したデータをランクベース損失を用いて学習し,ペアワイズ精度,ランク相関,キャリブレーションを評価する。
Rewarding DINOは、トレーニングセットからタスクの競争性能を達成し、シミュレーションと実世界の新しい設定に一般化し、タスクセマンティクスを学ぶことを示す。
また、市販の強化学習アルゴリズムを用いてモデルをテストすることで、メタワールド+のトレーニングセットからタスクを解決する。
関連論文リスト
- Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。
PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。
本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T09:43:57Z) - VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences [13.337649128532307]
嗜好に基づくRLは、比較フィードバックから報酬を学ぶことによって、これらの落とし穴のいくつかを緩和する。
単一の最終状態の画像は、一般的にエージェントの完全な動きを捉えるのに失敗する。
本稿では,フィードバックの精度を向上し,報酬学習とエージェントのポリシーの整合性を向上する2部構成のソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-18T01:51:27Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Active Preference-Based Gaussian Process Regression for Reward Learning [42.697198807877925]
一般的なアプローチの1つは、収集された専門家によるデモンストレーションから報酬関数を学ぶことである。
選好に基づく学習手法を提案し、その代替として、人間のフィードバックは軌跡間の比較の形でのみ存在する。
当社のアプローチは、嗜好に基づく学習フレームワークにおいて、柔軟性とデータ非効率の両問題に対処することを可能にする。
論文 参考訳(メタデータ) (2020-05-06T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。