Fugu-MT 論文翻訳(概要): GRAM: A Generative Foundation Reward Model for Reward Generalization

論文の概要: GRAM: A Generative Foundation Reward Model for Reward Generalization

arxiv url: http://arxiv.org/abs/2506.14175v2
Date: Wed, 18 Jun 2025 04:31:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 13:10:45.377444
Title: GRAM: A Generative Foundation Reward Model for Reward Generalization
Title（参考訳）: GRAM: Reward Generalizationのためのジェネレーティブファウンデーション・リワードモデル
Authors: Chenglong Wang, Yang Gan, Yifu Huo, Yongyu Mu, Qiaozhi He, Murun Yang, Bei Li, Tong Xiao, Chunliang Zhang, Tongran Liu, Jingbo Zhu,
Abstract要約: まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
参考スコア（独自算出の注目度）: 48.63394690265176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In aligning large language models (LLMs), reward models have played an important role, but are standardly trained as discriminative models and rely only on labeled human preference data. In this paper, we explore methods that train reward models using both unlabeled and labeled data. Building on the generative models in LLMs, we develop a generative reward model that is first trained via large-scale unsupervised learning and then fine-tuned via supervised learning. We also show that by using label smoothing, we are in fact optimizing a regularized pairwise ranking loss. This result, in turn, provides a new view of training reward models, which links generative models and discriminative models under the same class of training objectives. The outcome of these techniques is a foundation reward model, which can be applied to a wide range of tasks with little or no further fine-tuning effort. Extensive experiments show that this model generalizes well across several tasks, including response ranking, reinforcement learning from human feedback, and task adaptation with fine-tuning, achieving significant performance improvements over several strong baseline models.
Abstract（参考訳）: 大きな言語モデル(LLM)の整合において、報酬モデルは重要な役割を果たすが、標準的な差別モデルとして訓練され、ラベル付き人間の嗜好データにのみ依存する。本稿では,ラベル付きデータとラベル付きデータの両方を用いて報酬モデルを訓練する手法を検討する。 LLMにおける生成モデルに基づいて、大規模な教師なし学習によって訓練された後、教師なし学習によって微調整された生成報酬モデルを開発する。また,ラベルスムーシングを用いることで,正規化されたペアワイドランキングの損失を最適化できることも示している。この結果は、同じ訓練目的のクラスの下で生成モデルと識別モデルとをリンクするトレーニング報酬モデルの新たなビューを提供する。これらの手法の成果は基礎報酬モデルであり、より細かな調整をほとんど、あるいは全く行わずに幅広いタスクに適用することができる。大規模な実験により、このモデルは、応答ランク付け、人間からのフィードバックからの強化学習、微調整によるタスク適応など、いくつかのタスクにわたってうまく一般化され、複数の強力なベースラインモデルに対して大幅な性能改善が達成されることが示された。

関連論文リスト

Self-evolved Imitation Learning in Simulated World [16.459715139048367]
自己進化的模倣学習(Self-Evolved Imitation Learning、SEIL)は、シミュレーターインタラクションを通じて数ショットモデルを改善するフレームワークである。 SEILは、数ショットの模倣学習シナリオにおいて、最先端のパフォーマンスを新たに達成する。
論文参考訳（メタデータ） (2025-09-23T18:15:32Z)
Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文参考訳（メタデータ） (2025-07-02T05:10:29Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文参考訳（メタデータ） (2024-10-09T17:52:28Z)
A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文参考訳（メタデータ） (2024-03-28T14:44:44Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文参考訳（メタデータ） (2023-06-15T17:42:48Z)
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文参考訳（メタデータ） (2023-04-13T18:22:40Z)
Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文参考訳（メタデータ） (2022-07-19T20:19:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。