論文の概要: Generative RLHF-V: Learning Principles from Multi-modal Human Preference
- arxiv url: http://arxiv.org/abs/2505.18531v1
- Date: Sat, 24 May 2025 05:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.48235
- Title: Generative RLHF-V: Learning Principles from Multi-modal Human Preference
- Title(参考訳): 生成的RLHF-V:マルチモーダルヒト選好からの学習原理
- Authors: Jiayi Zhou, Jiaming Ji, Boyuan Chen, Jiapeng Sun, Wenqi Chen, Donghai Hong, Sirui Han, Yike Guo, Yaodong Yang,
- Abstract要約: 我々は、GRMとマルチモーダルRLHFを統合する新しいアライメントフレームワーク、Generative RLHF-Vを紹介する。
RL$の2段階のパイプラインを提案する: $textbfmulti-modalgenerative reward Modeling from RL$, そこでは、RLがGRMを誘導し、人間の意図を積極的に捉え、正しいペアワイズスコアを予測する。
我々のフレームワークは7つのベンチマークで4つのMLLMのパフォーマンスを18.1%$で改善し、ベースラインのRLHFは5.3%$でしかない。
- 参考スコア(独自算出の注目度): 15.068452240642884
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training multi-modal large language models (MLLMs) that align with human intentions is a long-term challenge. Traditional score-only reward models for alignment suffer from low accuracy, weak generalization, and poor interpretability, blocking the progress of alignment methods, e.g., reinforcement learning from human feedback (RLHF). Generative reward models (GRMs) leverage MLLMs' intrinsic reasoning capabilities to discriminate pair-wise responses, but their pair-wise paradigm makes it hard to generalize to learnable rewards. We introduce Generative RLHF-V, a novel alignment framework that integrates GRMs with multi-modal RLHF. We propose a two-stage pipeline: $\textbf{multi-modal generative reward modeling from RL}$, where RL guides GRMs to actively capture human intention, then predict the correct pair-wise scores; and $\textbf{RL optimization from grouped comparison}$, which enhances multi-modal RL scoring precision by grouped responses comparison. Experimental results demonstrate that, besides out-of-distribution generalization of RM discrimination, our framework improves 4 MLLMs' performance across 7 benchmarks by $18.1\%$, while the baseline RLHF is only $5.3\%$. We further validate that Generative RLHF-V achieves a near-linear improvement with an increasing number of candidate responses. Our code and models can be found at https://generative-rlhf-v.github.io.
- Abstract(参考訳): 人間の意図に合わせたマルチモーダルな大規模言語モデル(MLLM)の訓練は、長期的な課題である。
アライメントのための従来のスコアオンリー報酬モデルは、低い精度、弱い一般化、弱い解釈性に悩まされ、アライメント手法の進歩、例えば人間からのフィードバックからの強化学習(RLHF)を阻害する。
生成的報酬モデル(GRM)は、MLLMの本質的な推論能力を利用してペアワイズ応答を識別するが、ペアワイズパラダイムは学習可能な報酬の一般化を難しくする。
我々は、GRMとマルチモーダルRLHFを統合する新しいアライメントフレームワーク、Generative RLHF-Vを紹介する。
RL は GRM を誘導して人間の意図を積極的に捉え、次に正しいペアワイズスコアを予測し、グループ比較から $\textbf{RL 最適化を行い、グループ応答比較によるマルチモーダル RL スコアの精度を向上させる。
実験の結果,RM差別の分布外一般化に加えて,我々のフレームワークは7つのベンチマークで4つのMLLMの性能を18.1\%$で改善し,ベースラインのRLHFは5.3\%$でしかないことがわかった。
さらに、生成RLHF-Vが、候補数の増加とともにほぼ直線的な改善を実現することを検証した。
私たちのコードとモデルは、https://generative-rlhf-v.github.io.orgにある。
関連論文リスト
- Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2024-09-30T15:06:53Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Interpreting Learned Feedback Patterns in Large Language Models [11.601799960959214]
我々は、微調整言語モデルのアクティベーションにおいて暗黙的にフィードバック信号を推定するプローブを訓練する。
これらの推定値を真のフィードバックと比較し、LFPの精度を微調整フィードバックと比較する。
我々は、GPT-4が記述し、LFPに関連するものとして分類する特徴に対して、正のフィードバック入力と相関する神経特徴を比較して、プローブを検証する。
論文 参考訳(メタデータ) (2023-10-12T09:36:03Z) - Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。
テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。
本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。
提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文 参考訳(メタデータ) (2023-09-25T20:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。