論文の概要: Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.12822v1
- Date: Sun, 15 Jun 2025 12:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.909905
- Title: Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルからのフィードバックを効果的に活用するためのレーティングに基づく強化学習の強化
- Authors: Tung Minh Luu, Younghwan Lee, Donghoon Lee, Sunho Kim, Min Jun Kim, Chang D. Yoo,
- Abstract要約: 本稿では,AIフィードバックから報酬関数を学習する評価に基づく強化学習手法ERL-VLMを紹介する。
ERL-VLMは、個々の軌道の絶対評価のために大きな視覚言語モデルをクエリし、より表現力のあるフィードバックを可能にする。
ERL-VLM は既存の VLM ベースの報酬生成手法よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 22.10168313140081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing effective reward functions remains a fundamental challenge in reinforcement learning (RL), as it often requires extensive human effort and domain expertise. While RL from human feedback has been successful in aligning agents with human intent, acquiring high-quality feedback is costly and labor-intensive, limiting its scalability. Recent advancements in foundation models present a promising alternative--leveraging AI-generated feedback to reduce reliance on human supervision in reward learning. Building on this paradigm, we introduce ERL-VLM, an enhanced rating-based RL method that effectively learns reward functions from AI feedback. Unlike prior methods that rely on pairwise comparisons, ERL-VLM queries large vision-language models (VLMs) for absolute ratings of individual trajectories, enabling more expressive feedback and improved sample efficiency. Additionally, we propose key enhancements to rating-based RL, addressing instability issues caused by data imbalance and noisy labels. Through extensive experiments across both low-level and high-level control tasks, we demonstrate that ERL-VLM significantly outperforms existing VLM-based reward generation methods. Our results demonstrate the potential of AI feedback for scaling RL with minimal human intervention, paving the way for more autonomous and efficient reward learning.
- Abstract(参考訳): 効果的な報酬関数を設計することは強化学習(RL)における根本的な課題であり、しばしば人間の努力とドメインの専門知識を必要とする。
人間のフィードバックからのRLはエージェントと人間の意図を一致させることに成功したが、高品質なフィードバックを得るにはコストがかかり、労力がかかり、スケーラビリティが制限される。
基礎モデルの最近の進歩は、報酬学習における人間の監督への依存を減らすため、AI生成フィードバックを平均化する有望な代替手段を示す。
このパラダイムに基づいて,AIフィードバックから報酬関数を効果的に学習する評価に基づくRL法であるERL-VLMを導入する。
対比較に依存する従来の手法とは異なり、ERL-VLMは個々の軌道の絶対的な評価のために大きな視覚言語モデル(VLM)をクエリし、より表現力のあるフィードバックを可能にし、サンプル効率を改善した。
さらに、データ不均衡とノイズラベルに起因する不安定性問題に対処するため、レーティングベースのRLの鍵となる拡張を提案する。
ERL-VLMは,低レベルと高レベルの両方の制御タスクにわたる広範囲な実験を通じて,既存のVLMベースの報酬生成手法よりも大幅に優れていることを示す。
我々の結果は、人間の介入を最小限に抑えてRLをスケールするためのAIフィードバックの可能性を示し、より自律的で効率的な報酬学習の道を開いた。
関連論文リスト
- OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - Prototypical Reward Network for Data-Efficient RLHF [17.220998116937444]
RLHF(Reinforcement Learning from Human Feedback)の報奨モデルが大規模言語モデル(LLM)の微調整に有効であることが証明された。
提案するフレームワークであるProto-RMは,人間からのフィードバックに制限された報酬モデルを改善するために,プロトタイプネットワークを活用している。
論文 参考訳(メタデータ) (2024-06-06T15:23:30Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。