論文の概要: Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL
- arxiv url: http://arxiv.org/abs/2603.28053v1
- Date: Mon, 30 Mar 2026 05:33:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.24459
- Title: Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL
- Title(参考訳): 優先順位ベースのRLのためのビジョンランゲージ埋め込みによるOracleのフィードバックの削減
- Authors: Udita Ghosh, Dripta S. Raychaudhuri, Jiachen Li, Konstantinos Karydis, Amit Roy-Chowdhury,
- Abstract要約: ROVEDは、VLEベースの監視とターゲットとするオラクルフィードバックを組み合わせたハイブリッドフレームワークである。
提案手法では,VLEを用いてセグメントレベルの嗜好を生成し,不確実性の高いサンプルのみをオラクルにフェールさせる。
複数のロボット操作タスクにまたがって、ROVEDは事前の嗜好ベースのメソッドにマッチまたは超過し、オラクルクエリを最大80%削減する。
- 参考スコア(独自算出の注目度): 18.45416397753188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference-based reinforcement learning can learn effective reward functions from comparisons, but its scalability is constrained by the high cost of oracle feedback. Lightweight vision-language embedding (VLE) models provide a cheaper alternative, but their noisy outputs limit their effectiveness as standalone reward generators. To address this challenge, we propose ROVED, a hybrid framework that combines VLE-based supervision with targeted oracle feedback. Our method uses the VLE to generate segment-level preferences and defers to an oracle only for samples with high uncertainty, identified through a filtering mechanism. In addition, we introduce a parameter-efficient fine-tuning method that adapts the VLE with the obtained oracle feedback in order to improve the model over time in a synergistic fashion. This ensures the retention of the scalability of embeddings and the accuracy of oracles, while avoiding their inefficiencies. Across multiple robotic manipulation tasks, ROVED matches or surpasses prior preference-based methods while reducing oracle queries by up to 80%. Remarkably, the adapted VLE generalizes across tasks, yielding cumulative annotation savings of up to 90%, highlighting the practicality of combining scalable embeddings with precise oracle supervision for preference-based RL.
- Abstract(参考訳): 優先度に基づく強化学習は、比較から効果的な報酬関数を学習することができるが、そのスケーラビリティはオラクルフィードバックの高コストによって制約される。
軽量視覚言語埋め込み(VLE)モデルは安価な代替手段を提供するが、ノイズの多い出力はスタンドアロンの報酬生成器としての有効性を制限する。
この課題に対処するため、我々は、VLEベースの監視と目標とするオラクルフィードバックを組み合わせたハイブリッドフレームワークROVEDを提案する。
本手法では,VLEを用いてセグメントレベルの嗜好を生成し,フィルタ機構を用いて同定した不確実性の高いサンプルに対してのみ,オラクルにフェーザを付与する。
さらに, パラメータ効率のよい微調整手法を導入し, 得られたオラクルフィードバックにVLEを適応させることにより, 時間とともにモデルをシナジスティックな方法で改善する。
これにより、埋め込みのスケーラビリティとオラクルの精度を保ちながら、その非効率さを回避できる。
複数のロボット操作タスクにまたがって、ROVEDは事前の嗜好ベースのメソッドにマッチまたは超過し、オラクルクエリを最大80%削減する。
注目すべきことに、適応されたVLEはタスクをまたいで一般化し、最大90%の累積的なアノテーションの節約をもたらす。
関連論文リスト
- Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。
本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文 参考訳(メタデータ) (2026-01-30T10:54:51Z) - AFLoRA: Adaptive Federated Fine-Tuning of Large Language Models with Resource-Aware Low-Rank Adaption [3.805501490912696]
フェデレートされた微調整は、分散データを使用して下流タスクにファンデーションモデルを適用するための有望なアプローチとして現れている。
大規模言語モデルのための適応的で軽量なファインチューニングフレームワークであるAFLoRAを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:35:32Z) - UORA: Uniform Orthogonal Reinitialization Adaptation in Parameter-Efficient Fine-Tuning of Large Models [7.706953461614795]
一様直交再初期化適応(Uniform Orthogonal Reinitialization Adaptation, UORA)は、大規模言語モデル(LLM)のための新しいパラメータ効率細調整(PEFT)アプローチである。
論文 参考訳(メタデータ) (2025-05-26T15:56:40Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - SELF: Surrogate-light Feature Selection with Large Language Models in Deep Recommender Systems [51.09233156090496]
ディープレコメンデータシステムのためのSurrogatE-Light特徴選択法
SELFは、大規模言語モデルからのセマンティック推論と、代理モデルからのタスク固有の学習を統合する。
実世界のレコメンデータプラットフォームからの3つの公開データセットに関する総合的な実験は、SELFの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-11T16:28:18Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Online Iterative Reinforcement Learning from Human Feedback with General Preference Model [20.81421550138371]
本稿では,人間のフィードバックからの強化学習(RLHF)について,一般的な嗜好のオラクルの文脈で検討する。
我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。
このフレームワークは報酬ベースよりも厳密に汎用的であり,事前選択された選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムとオンライン学習を提案する。
論文 参考訳(メタデータ) (2024-02-11T21:44:21Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。