論文の概要: Position: Good Embodied Reward Models Need Bad Behavior Data
- arxiv url: http://arxiv.org/abs/2606.01036v1
- Date: Sun, 31 May 2026 05:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:49:12.19228
- Title: Position: Good Embodied Reward Models Need Bad Behavior Data
- Title(参考訳): 良い身体的リワードモデルには悪い行動データが必要だ
- Authors: Ran Tian, Yilin Wu, Andrea Bajcsy,
- Abstract要約: 我々は、最先端の3つの報酬モデルを分析し、実際の人間の評価者が罰則を課すような、体系的に過度に逆戻りする行動を見つける。
実際の悪行動データへの控えめな露出でさえ、人間の嗜好との整合性を向上し、コストのかかる偽陽性を低減できることを示す。
- 参考スコア(独自算出の注目度): 14.708921992774394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that to obtain reliable embodied reward models, the community must invest in ``bad'' robot data: failed, suboptimal, error-prone, and even hazardous behaviors. While reward models are central to any foundation model's lifecycle, today's embodied reward models are trained primarily on successful behaviors. We analyze three state-of-the-art embodied reward models and find that they systematically over-reward behaviors that real human evaluators would penalize, including unsafe interactions, poor execution, and shortcut strategies that only superficially satisfy tasks. We attribute these failures to a key data gap: the scarcity of negative embodied data which is costly to collect and often filtered out or withheld in existing robotics datasets. Furthermore, we show that even modest exposure to real bad behavior data can improve alignment with human preferences and reduce costly false positives. We therefore call on the embodied AI community to curate and release their bad robot data, build synthetic bad data generation engines, develop more decentralized physical evaluation systems, and design benchmarks for fine-grained embodied reward model evaluations.
- Abstract(参考訳): このポジションペーパーは、信頼できるエンボディド報酬モデルを得るためには、コミュニティは‘bad’のロボットデータ(フェール、準最適、エラー傾向、さらには有害な行動)に投資する必要がある、と論じている。
報酬モデルは、すべての基礎モデルのライフサイクルの中心であるが、今日の具体的報酬モデルは、主に成功した行動に基づいて訓練されている。
我々は、最先端の3つの報酬モデルを分析し、実際の人間の評価者が不安全な相互作用、貧弱な実行、タスクのみを表面的に満足するショートカット戦略を含む、体系的に過度に逆戻りする行動を見つける。
既存のロボティクスデータセットで収集され、しばしばフィルタリングされる、あるいは保持されない、負の具体的データの不足です。
さらに、実際の悪行動データへの控えめな露出でさえ、人間の嗜好との整合性を向上し、コストのかかる偽陽性を低減できることを示した。
そこで我々は、悪質なロボットデータをキュレートしてリリースし、合成された悪質なデータ生成エンジンを構築し、より分散化された物理的評価システムを開発し、よりきめ細かい報酬モデル評価のためのベンチマークを設計するよう、エンボディされたAIコミュニティに呼びかける。
関連論文リスト
- Hi-WM: Human-in-the-World-Model for Scalable Robot Post-Training [54.896907620476675]
本稿では,学習世界モデルを用いた学習後学習フレームワークを提案する。
Hi-WMは中間状態をキャッシュし、ロールバックとブランチをサポートする。
我々は、剛性と変形性のあるオブジェクト相互作用と2つのポリシーバックボーンにまたがる3つの実世界の操作タスクについて、Hi-WMを評価する。
論文 参考訳(メタデータ) (2026-04-23T14:42:54Z) - Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。
我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。
より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文 参考訳(メタデータ) (2026-02-17T15:31:32Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Rethinking and Recomputing the Value of Machine Learning Models [16.06614967567121]
機械学習モデルをトレーニングし評価する一般的なアプローチは、現実のアプリケーションを考えるのに失敗することが多い、と私たちは主張する。
精度やfスコアといった従来のメトリクスは、このようなハイブリッドな設定でモデルの有益な価値を捉えることができません。
本稿では, 予測, 誤り, 拒絶に対するタスク固有のコストを組み込んだ, 単純かつ理論的に健全な"値"メトリックを提案する。
論文 参考訳(メタデータ) (2022-09-30T01:02:31Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z) - Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks [9.078290260836706]
複雑な報酬工学の必要性を先導するスパース・リワードタスクに適したモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均的なデータ効率が桁違いに向上する。
論文 参考訳(メタデータ) (2021-10-05T23:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。