論文の概要: Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch
- arxiv url: http://arxiv.org/abs/2502.17173v1
- Date: Mon, 24 Feb 2025 14:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:16.040526
- Title: Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch
- Title(参考訳): Cheems:スクラッチによる中国のリワードモデルの構築と評価のための実践的ガイダンス
- Authors: Xueru Wen, Jie Lou, Zichao Li, Yaojie Lu, Xing Yu, Yuqiu Ji, Guohai Xu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Debing Zhang,
- Abstract要約: リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合に不可欠である。
CheemsBenchは、中国の文脈における完全な人間によるRM評価ベンチマークである。
CheemsPreferenceは、人間と機械のコラボレーションを通じて注釈付けされた大規模で多様な好みデータセットである。
- 参考スコア(独自算出の注目度): 48.04735845721488
- License:
- Abstract: Reward models (RMs) are crucial for aligning large language models (LLMs) with human preferences. However, most RM research is centered on English and relies heavily on synthetic resources, which leads to limited and less reliable datasets and benchmarks for Chinese. To address this gap, we introduce CheemsBench, a fully human-annotated RM evaluation benchmark within Chinese contexts, and CheemsPreference, a large-scale and diverse preference dataset annotated through human-machine collaboration to support Chinese RM training. We systematically evaluate open-source discriminative and generative RMs on CheemsBench and observe significant limitations in their ability to capture human preferences in Chinese scenarios. Additionally, based on CheemsPreference, we construct an RM that achieves state-of-the-art performance on CheemsBench, demonstrating the necessity of human supervision in RM training. Our findings reveal that scaled AI-generated data struggles to fully capture human preferences, emphasizing the importance of high-quality human supervision in RM development.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合に不可欠である。
しかし、ほとんどのRM研究は英語に重点を置いており、合成資源に大きく依存しているため、中国語の限られた信頼性の低いデータセットやベンチマークに繋がる。
このギャップに対処するために、中国における完全に人間に注釈付けされたRM評価ベンチマークであるCheemsBenchと、中国におけるRMトレーニングをサポートするために、人間と機械のコラボレーションを通じて注釈付けされた大規模で多様な嗜好データセットであるCheemsPreferenceを紹介した。
我々は,CheemsBench上でのオープンソースの差別的・生成的RMを体系的に評価し,中国のシナリオにおける人間の嗜好を捉える能力に重大な制限を観測した。
さらに、CheemsPreferenceに基づいて、CheemsBenchの最先端性能を実現するRMを構築し、RMトレーニングにおける人間の監督の必要性を実証する。
以上の結果から,大規模AI生成データによる人間の嗜好の把握に苦慮し,RM開発における高品質な人的監督の重要性を強調した。
関連論文リスト
- RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models [46.09562860220433]
暗黙のフィードバック(特に眼球追跡(ET)データ)をReward Model(RM)に統合する新しいフレームワークであるGazeRewardを紹介します。
提案手法は、確立された人間の嗜好データセット上でのRMの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T13:24:56Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - SEAL: Systematic Error Analysis for Value ALignment [4.2185937778110825]
Reinforcement Learning from Human Feedbackは、言語モデルと人間の価値を結びつけることを目的としている。
その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。
本稿では,人的価値のモデリングと整合性を評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2024-08-16T18:48:30Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - Improving Reward Models with Synthetic Critiques [20.180933963110814]
リワードモデル(RM)は、人間のフィードバックからの強化学習を通じて言語モデルを整合させる上で重要な役割を担っている。
本稿では,大規模言語モデルが生成する合成自然言語批判を用いて,新たなフィードバックを提供する手法を提案する。
本研究では,異なる事前学習モデルによるRMの性能とデータ効率の向上を実証する。
論文 参考訳(メタデータ) (2024-05-31T14:33:07Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。