論文の概要: Preference VLM: Leveraging VLMs for Scalable Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.01616v1
- Date: Mon, 03 Feb 2025 18:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:55.360089
- Title: Preference VLM: Leveraging VLMs for Scalable Preference-Based Reinforcement Learning
- Title(参考訳): 選好VLM: スケーラブルな選好型強化学習のためのVLMの活用
- Authors: Udita Ghosh, Dripta S. Raychaudhuri, Jiachen Li, Konstantinos Karydis, Amit Roy-Chowdhury,
- Abstract要約: 視覚言語モデル(VLM)と選択的フィードバックを統合するフレームワークであるPrefVLMを紹介する。
提案手法はVLMを利用して初期選好ラベルを生成する。
メタワールド操作タスクの実験は、PrefVLMが最先端の手法に匹敵する成功率または優れた成功率を達成することを示した。
- 参考スコア(独自算出の注目度): 17.59802090014789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reinforcement learning (RL) offers a promising approach for aligning policies with human intent but is often constrained by the high cost of human feedback. In this work, we introduce PrefVLM, a framework that integrates Vision-Language Models (VLMs) with selective human feedback to significantly reduce annotation requirements while maintaining performance. Our method leverages VLMs to generate initial preference labels, which are then filtered to identify uncertain cases for targeted human annotation. Additionally, we adapt VLMs using a self-supervised inverse dynamics loss to improve alignment with evolving policies. Experiments on Meta-World manipulation tasks demonstrate that PrefVLM achieves comparable or superior success rates to state-of-the-art methods while using up to 2 x fewer human annotations. Furthermore, we show that adapted VLMs enable efficient knowledge transfer across tasks, further minimizing feedback needs. Our results highlight the potential of combining VLMs with selective human supervision to make preference-based RL more scalable and practical.
- Abstract(参考訳): 嗜好に基づく強化学習(RL)は、政策を人間の意図と整合させるための有望なアプローチを提供するが、高コストの人的フィードバックによって制約されることが多い。
本研究では,VLM(Vision-Language Models)と選択的フィードバックを統合するフレームワークであるPrefVLMを紹介する。
提案手法はVLMを利用して初期選好ラベルを生成する。
さらに、自己教師付き逆ダイナミクス損失を用いてVLMを適応させ、進化するポリシーとの整合性を改善する。
Meta-World操作タスクの実験では、PrefVLMは最先端のメソッドに匹敵する成功率または優れた成功率を達成し、最大2倍の人間のアノテーションを使用することを示した。
さらに,適応型VLMはタスク間の効率的な知識伝達を可能にし,フィードバックニーズを最小化することを示す。
この結果から,VLMと選択的人事監督を組み合わせることにより,よりスケーラブルで実用的なRLを実現する可能性が示唆された。
関連論文リスト
- HF4Rec: Human-Like Feedback-Driven Optimization Framework for Explainable Recommendation [8.532115411106068]
提案する提案手法は,人為的なフィードバック駆動型最適化フレームワークである。
このフレームワークは、人中心で説明可能な要求を達成するために、高い労働コストを発生させることなく、動的にインタラクティブな最適化機構を使用する。
特に,大規模言語モデル(LLM)を人間のシミュレータとして利用して,学習プロセスの指針となる人間的なフィードバックを予測することを提案する。
論文 参考訳(メタデータ) (2025-04-19T02:46:10Z) - When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making [15.397582422113627]
実環境で動作するAIエージェントには、身体的意思決定が基本である。
本研究では,マルチモーダルな人間中心意思決定タスクにおいて,オープンソースのビジュアル言語モデル(VLM)を評価する。
論文 参考訳(メタデータ) (2025-03-21T09:25:23Z) - From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。
CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文 参考訳(メタデータ) (2025-03-08T16:13:18Z) - OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference [80.36831779302148]
オープンソースのマルチモーダル大規模言語モデル(MLLM)の最近の進歩は,基礎的能力の向上に重点を置いている。
OmniAlign-Vは,多彩な画像,複雑な質問,さまざまな応答形式を含む200Kの高品質なトレーニングサンプルのデータセットである。
実験の結果,OmniAlign-Vを用いたMLLMの微調整は,SFT(Supervised Fine-Tuning)やDPO(Direct Preference Optimization)を用いることで,人間の嗜好のアライメントを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-02-25T18:05:14Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
大型言語モデル(LLM)は視覚言語モデル(VLM)の暗黙の役割を果たす
我々のGLOVメタプロンプトは、下流のタスク記述でLLMをメタプロンプトし、適切なVLMプロンプトに問い合わせる。
VLMの2つのファミリーを用いて16種類の多様なデータセット上でGLOVを評価した。
論文 参考訳(メタデータ) (2024-10-08T15:55:40Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。