論文の概要: ALaRM: Align Language Models via Hierarchical Rewards Modeling
- arxiv url: http://arxiv.org/abs/2403.06754v2
- Date: Sat, 16 Mar 2024 12:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 01:21:18.016407
- Title: ALaRM: Align Language Models via Hierarchical Rewards Modeling
- Title(参考訳): ALaRM:階層的リワードモデリングによるアライン言語モデル
- Authors: Yuhang Lai, Siyuan Wang, Shujun Liu, Xuanjing Huang, Zhongyu Wei,
- Abstract要約: ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 41.79125107279527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ALaRM, the first framework modeling hierarchical rewards in reinforcement learning from human feedback (RLHF), which is designed to enhance the alignment of large language models (LLMs) with human preferences. The framework addresses the limitations of current alignment approaches, which often struggle with the inconsistency and sparsity of human supervision signals, by integrating holistic rewards with aspect-specific rewards. This integration enables more precise and consistent guidance of language models towards desired outcomes, particularly in complex and open text generation tasks. By employing a methodology that filters and combines multiple rewards based on their consistency, the framework provides a reliable mechanism for improving model alignment. We validate our approach through applications in long-form question answering and machine translation tasks, employing gpt-3.5-turbo for pairwise comparisons, and demonstrate improvements over existing baselines. Our work underscores the effectiveness of hierarchical rewards modeling in refining LLM training processes for better human preference alignment. We release our code at https://ALaRM-fdu.github.io.
- Abstract(参考訳): ALaRMは、人間からのフィードバック(RLHF)からの強化学習における最初の階層的報酬をモデル化するフレームワークであり、大きな言語モデル(LLM)と人間の好みとの整合性を高めるために設計されている。
このフレームワークは、アスペクト固有の報酬と全体報酬を統合することで、人間の監視信号の不整合と疎結合にしばしば苦労する、現在のアライメントアプローチの限界に対処する。
この統合により、特に複雑でオープンなテキスト生成タスクにおいて、言語モデルの望ましい結果に対するより正確で一貫したガイダンスが可能になる。
一貫性に基づいて複数の報酬をフィルタリングして組み合わせる方法論を利用することで、このフレームワークはモデルの整合性を改善するための信頼性の高いメカニズムを提供する。
我々は,長文質問応答や機械翻訳タスクの応用,対比較にgpt-3.5-turboを用い,既存のベースラインよりも改善した手法を検証した。
本研究は,LLMトレーニングプロセスにおける階層型報酬モデリングの有効性を,人間の嗜好の整合性向上のために評価するものである。
コードをhttps://ALaRM-fdu.github.ioでリリースします。
関連論文リスト
- HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - Multi-objective Reinforcement learning from AI Feedback [0.0]
本稿では、AIフィードバック(RLAIF)からの強化学習を用いて訓練された言語モデルのアライメントと性能を改善するための新しいアプローチを提案する。
すべての人間の嗜好を表現するために、単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、梅毒といったより単純な原則に分解する。
我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。
論文 参考訳(メタデータ) (2024-06-11T14:24:00Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - ARGS: Alignment as Reward-Guided Search [17.420727709895736]
我々は、アライメントをデコードプロセスに統合する新しいフレームワーク、ARGS、アライメントをReward-Guided Searchとして紹介する。
報酬信号を用いてモデルの確率的予測を調整することにより、ARGSは人間の好みに合わせて意味的な多様性を持つテキストを生成する。
当社のフレームワークは,デコード時のアライメントを重視したもので,将来的にはよりレスポンシブな言語モデルの道を開くものと信じています。
論文 参考訳(メタデータ) (2024-01-23T23:42:41Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。