論文の概要: Revisiting the Learning Objectives of Vision-Language Reward Models
- arxiv url: http://arxiv.org/abs/2512.20675v1
- Date: Sat, 20 Dec 2025 19:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.558561
- Title: Revisiting the Learning Objectives of Vision-Language Reward Models
- Title(参考訳): ビジョンランゲージ・リワードモデルの学習対象を再考する
- Authors: Simon Roy, Samuel Barbeau, Giovanni Beltrame, Christian Desrosiers, Nicolas Thome,
- Abstract要約: 一般化可能な報酬関数の学習は、インテリジェンスにおける中核的な課題である。
最近の研究は、人間の監督なしに高密度でドメインに依存しない報酬を得るために、対照的な視覚言語モデル(VLM)を活用している。
我々は、同じバックボーン、微調整データ、評価環境を備えた統合フレームワーク下で、最近のVLMベースの報酬モデルを評価する。
- 参考スコア(独自算出の注目度): 19.768973349254285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning generalizable reward functions is a core challenge in embodied intelligence. Recent work leverages contrastive vision language models (VLMs) to obtain dense, domain-agnostic rewards without human supervision. These methods adapt VLMs into reward models through increasingly complex learning objectives, yet meaningful comparison remains difficult due to differences in training data, architectures, and evaluation settings. In this work, we isolate the impact of the learning objective by evaluating recent VLM-based reward models under a unified framework with identical backbones, finetuning data, and evaluation environments. Using Meta-World tasks, we assess modeling accuracy by measuring consistency with ground truth reward and correlation with expert progress. Remarkably, we show that a simple triplet loss outperforms state-of-the-art methods, suggesting that much of the improvements in recent approaches could be attributed to differences in data and architectures.
- Abstract(参考訳): 一般化可能な報酬関数の学習は、インテリジェンスにおける中核的な課題である。
最近の研究は、人間の監督なしに高密度でドメインに依存しない報酬を得るために、対照的な視覚言語モデル(VLM)を活用している。
これらの手法は、より複雑な学習目標を通じて、VLMを報酬モデルに適応させるが、トレーニングデータ、アーキテクチャ、評価設定の違いにより、意味のある比較は難しいままである。
本研究では,最新のVLMに基づく報酬モデルを評価することにより,学習目標の影響を,同一のバックボーン,微調整データ,評価環境を備えた統一フレームワークで分離する。
メタワールドタスクを用いて,基礎的真理報酬との整合性および専門家の進歩との相関を計測し,モデリング精度を評価する。
注目すべきことに、単純な三重項損失は最先端の手法よりも優れており、最近のアプローチにおける改善の多くは、データとアーキテクチャの違いに起因する可能性があることを示唆している。
関連論文リスト
- Reward Models are Metrics in a Trench Coat [8.100404050572996]
2つの研究領域は、主に分離されており、冗長な用語と繰り返しの落とし穴に繋がることがわかった。
一般的な課題には、素早い相関への感受性、下流の報酬ハックへの影響、データ品質を改善する方法、メタ評価へのアプローチなどがある。
我々の立場論文は、フィールド間のより緊密なコラボレーションがこれらの問題を克服するのに役立ちます。
論文 参考訳(メタデータ) (2025-10-03T17:59:44Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Shortcut Learning Susceptibility in Vision Classifiers [11.599035626374409]
ショートカット学習は、機械学習モデルが意味のある特徴をキャプチャする代わりに、データの急激な相関を利用する場所である。
本研究では,クラスラベルと位置と強度の相関関係にあるデータセットに意図的にショートカットを導入する。
異なる学習率で学習をショートカットする可能性を評価する。
論文 参考訳(メタデータ) (2025-02-13T10:25:52Z) - Learning to Unlearn for Robust Machine Unlearning [6.488418950340473]
学習過程を最適化する新しいLTU(Learning-to-Unlearn)フレームワークを提案する。
LTUは、モデルが一般化可能な知識を効果的に保存することを容易にするメタ最適化スキームを含んでいる。
また、記憶と忘れのための最適化トラジェクトリを整列するグラディエント調和戦略も導入する。
論文 参考訳(メタデータ) (2024-07-15T07:36:00Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。