論文の概要: Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models
- arxiv url: http://arxiv.org/abs/2502.08922v1
- Date: Thu, 13 Feb 2025 03:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:43.649494
- Title: Self-Consistency of the Internal Reward Models Improves Self-Rewarding Language Models
- Title(参考訳): 自己逆行言語モデルを改善する内部逆行モデルの自己整合性
- Authors: Xin Zhou, Yiwen Guo, Ruotian Ma, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 同じ大言語モデル内の異なる内部報酬モデルが、しばしば矛盾した嗜好を生じさせることがわかった。
この矛盾は、自己生成の嗜好データの信頼性への懸念を高め、全体的なアライメントパフォーマンスを阻害し、さらなる研究の必要性を強調する。
トレーニング中に内部報酬モデル間の整合性を高めるための新しいフレームワークである自己一貫性内部報酬(SCIR)を提案する。
- 参考スコア(独自算出の注目度): 63.116041268654705
- License:
- Abstract: Aligning Large Language Models (LLMs) with human preferences is crucial for their deployment in real-world applications. Recent advancements in Self-Rewarding Language Models suggest that an LLM can use its internal reward models (such as LLM-as-a-Judge) \cite{yuanself} to generate preference data, improving alignment performance without costly human annotation. However, we find that different internal reward models within the same LLM often generate inconsistent preferences. This inconsistency raises concerns about the reliability of self-generated preference data, hinders overall alignment performance, and highlights the need for further research to ensure reliable and coherent alignment with human preferences. To address this limitation, we propose Self-Consistent Internal Rewards (SCIR), a novel framework designed to enhance consistency among internal reward models during training. In each training step, we collect preference predictions from multiple pre-defined internal reward models and enforce consistency and confidence through an inconsistency penalty mechanism, thereby improving the reliability of these internal reward models. We selectively use data with consistent predictions for preference optimization, ensuring the quality of the preference data. By employing self-consistent internal rewards, our method significantly improves the alignment performance and reward modeling capability of LLMs, outperforming baseline methods by a notable margin.
- Abstract(参考訳): 人間の好みでLLM(Large Language Models)を調整することは、現実世界のアプリケーションにデプロイする上で非常に重要です。
自己回帰言語モデルの最近の進歩は、LLMが内部報酬モデル(LLM-as-a-Judge) \cite{yuanself} を用いて嗜好データを生成し、コストのかかる人的アノテーションを使わずにアライメント性能を向上させることができることを示唆している。
しかし、同じLLM内の異なる内部報酬モデルでは、しばしば矛盾した嗜好が生じる。
この矛盾は、自己生成された嗜好データの信頼性への懸念を高め、全体的なアライメントパフォーマンスを阻害し、人間の嗜好と信頼性と一貫性を確保するためのさらなる研究の必要性を強調している。
この制限に対処するために、トレーニング中の内部報酬モデル間の一貫性を高めるために設計された新しいフレームワークである自己持続的内部報酬(SCIR)を提案する。
各トレーニングステップでは、複数の事前定義された内部報酬モデルから選好予測を収集し、不整合ペナルティ機構を通じて一貫性と信頼性を強制することにより、内部報酬モデルの信頼性を向上させる。
我々は、嗜好データの品質を保証するため、選好最適化のために一貫した予測を伴うデータを選択的に使用する。
自己整合性内部報酬を用いることで,LLMのアライメント性能と報酬モデリング能力を大幅に向上し,ベースライン手法を顕著なマージンで向上させる。
関連論文リスト
- Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Aligning Large Language Models via Self-Steering Optimization [78.42826116686435]
本稿では,高品質な選好信号を自律的に生成するアルゴリズムであるSelf-Steering Optimization(SSO$)を紹介する。
SSO$は、選択された応答と拒否された応答の間に一貫したギャップを確保することで、信号の精度を維持する。
我々は、Qwen2とLlama3.1という2つの基礎モデルを用いて、$SSO$の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - CREAM: Consistency Regularized Self-Rewarding Language Models [34.325289477993586]
自己回帰型大規模言語モデル (LLM) は, 優先データに対する人間のアノテーションを必要とせずに, LLM-as-a-Judge を用いてアライメント性能を向上させることに成功した。
しかし、報酬とランキングの正確性は保証されていないため、精度の高い報酬と高品質な選好データを保証するのに不可欠である。
本稿では,各イテレーション間の報酬整合性を利用して自己回帰訓練を規則化する一貫性正規化sElf-rewarding lAnguage Model (CREAM)を提案する。
論文 参考訳(メタデータ) (2024-10-16T16:51:01Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。