論文の概要: Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
- arxiv url: http://arxiv.org/abs/2410.18451v1
- Date: Thu, 24 Oct 2024 06:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:28.888972
- Title: Skywork-Reward: Bag of Tricks for Reward Modeling in LLMs
- Title(参考訳): スカイワーク・リワード:LLMにおけるリワードモデリングのためのトリックの袋
- Authors: Chris Yuhao Liu, Liang Zeng, Jiacai Liu, Rui Yan, Jujie He, Chaojie Wang, Shuicheng Yan, Yang Liu, Yahui Zhou,
- Abstract要約: 高品質なオープンソース嗜好データセットをキュレートするための効率的なデータ選択とフィルタリング手法を提案する。
我々は80Kの選好ペアのみを含むSkywork-Rewardデータコレクションをキュレートした。
我々はSkywork-Rewardモデルシリーズ、Skywork-Reward-Gemma-27BとSkywork-Reward-Llama-3.1-8Bを開発した。
- 参考スコア(独自算出の注目度): 54.11217789754743
- License:
- Abstract: In this report, we introduce a collection of methods to enhance reward modeling for LLMs, focusing specifically on data-centric techniques. We propose effective data selection and filtering strategies for curating high-quality open-source preference datasets, culminating in the Skywork-Reward data collection, which contains only 80K preference pairs -- significantly smaller than existing datasets. Using this curated dataset, we developed the Skywork-Reward model series -- Skywork-Reward-Gemma-27B and Skywork-Reward-Llama-3.1-8B -- with the former currently holding the top position on the RewardBench leaderboard. Notably, our techniques and datasets have directly enhanced the performance of many top-ranked models on RewardBench, highlighting the practical impact of our contributions in real-world preference learning applications.
- Abstract(参考訳): 本稿では,データ中心技術を中心に,LLMの報酬モデリングを強化する手法について紹介する。
そこで我々は,80Kの選好ペアのみを含むSkywork-Rewardデータ収集において,高品質なオープンソース選好データセットをキュレートするための効率的なデータ選択とフィルタリング手法を提案する。
このキュレートされたデータセットを用いて、Skywork-Reward-Gemma-27BとSkywork-Reward-Llama-3.1-8BというSkywork-Rewardモデルシリーズを開発した。
特に、我々の技術とデータセットは、RewardBench上で多くの上位モデルの性能を直接向上させ、実際の嗜好学習アプリケーションにおける私たちの貢献の実践的影響を強調した。
関連論文リスト
- STAR: A Simple Training-free Approach for Recommendations using Large Language Models [36.18841135511487]
大規模言語モデル(LLM)の最近の進歩は、レコメンデーションシステム(RecSys)タスクに有望な新しいアプローチを提供する。
LLMを利用するフレームワークを提案し、微調整を必要とせずに様々なレコメンデーションタスクに適用できる。
本手法はHits@10のパフォーマンスが23.8%,Toys and Gamesが37.5%,Sports and Outdoorsが1.8%であった。
論文 参考訳(メタデータ) (2024-10-21T19:34:40Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - POINTS: Improving Your Vision-language Model with Affordable Strategies [28.611705477757454]
視覚言語モデルの最新の進歩を利用して、ロバストなベースラインモデルを訓練する。
我々は、パープレキシティーを用いて事前学習データをフィルタリングし、トレーニングのための最も低いパープレキシティーデータを選択する。
視覚的なインストラクションチューニングでは、さまざまなデータセットでモデルスープを使用して、より多くのデータセットを追加することで、限界的な改善を実現しました。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Lifelong Personalized Low-Rank Adaptation of Large Language Models for Recommendation [50.837277466987345]
我々は、推奨のために大規模言語モデル(LLM)の分野に焦点を当てる。
ユーザ毎に独立したLoRAを管理するPersonalized LoRAモジュールを組み込んだRecLoRAを提案する。
また、Few2Many Learning Strategyを設計し、従来のレコメンデーションモデルをレンズとして使用して、小さなトレーニングスペースをフルスペースに拡大する。
論文 参考訳(メタデータ) (2024-08-07T04:20:28Z) - HelpSteer2: Open-source dataset for training top-performing reward models [9.214886217647157]
我々はパーミッシブにライセンスされた選好データセットであるHelpSteer2を開発した。
HelpSteer2は1万のレスポンスペアで構成されている。
本稿では,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。
論文 参考訳(メタデータ) (2024-06-12T22:28:08Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Curriculum Learning for Dense Retrieval Distillation [20.25741148622744]
CL-DRDと呼ばれる総合的なカリキュラム学習に基づく最適化フレームワークを提案する。
CL-DRDは、リグレード(教師)モデルによって生成されたトレーニングデータの難易度を制御する。
3つのパブリックパス検索データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-04-28T17:42:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。