論文の概要: ALaRM: Align Language Models via Hierarchical Rewards Modeling
- arxiv url: http://arxiv.org/abs/2403.06754v2
- Date: Sat, 16 Mar 2024 12:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 01:21:18.016407
- Title: ALaRM: Align Language Models via Hierarchical Rewards Modeling
- Title(参考訳): ALaRM:階層的リワードモデリングによるアライン言語モデル
- Authors: Yuhang Lai, Siyuan Wang, Shujun Liu, Xuanjing Huang, Zhongyu Wei,
- Abstract要約: ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 41.79125107279527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ALaRM, the first framework modeling hierarchical rewards in reinforcement learning from human feedback (RLHF), which is designed to enhance the alignment of large language models (LLMs) with human preferences. The framework addresses the limitations of current alignment approaches, which often struggle with the inconsistency and sparsity of human supervision signals, by integrating holistic rewards with aspect-specific rewards. This integration enables more precise and consistent guidance of language models towards desired outcomes, particularly in complex and open text generation tasks. By employing a methodology that filters and combines multiple rewards based on their consistency, the framework provides a reliable mechanism for improving model alignment. We validate our approach through applications in long-form question answering and machine translation tasks, employing gpt-3.5-turbo for pairwise comparisons, and demonstrate improvements over existing baselines. Our work underscores the effectiveness of hierarchical rewards modeling in refining LLM training processes for better human preference alignment. We release our code at https://ALaRM-fdu.github.io.
- Abstract(参考訳): ALaRMは、人間からのフィードバック(RLHF)からの強化学習における最初の階層的報酬をモデル化するフレームワークであり、大きな言語モデル(LLM)と人間の好みとの整合性を高めるために設計されている。
このフレームワークは、アスペクト固有の報酬と全体報酬を統合することで、人間の監視信号の不整合と疎結合にしばしば苦労する、現在のアライメントアプローチの限界に対処する。
この統合により、特に複雑でオープンなテキスト生成タスクにおいて、言語モデルの望ましい結果に対するより正確で一貫したガイダンスが可能になる。
一貫性に基づいて複数の報酬をフィルタリングして組み合わせる方法論を利用することで、このフレームワークはモデルの整合性を改善するための信頼性の高いメカニズムを提供する。
我々は,長文質問応答や機械翻訳タスクの応用,対比較にgpt-3.5-turboを用い,既存のベースラインよりも改善した手法を検証した。
本研究は,LLMトレーニングプロセスにおける階層型報酬モデリングの有効性を,人間の嗜好の整合性向上のために評価するものである。
コードをhttps://ALaRM-fdu.github.ioでリリースします。
関連論文リスト
- EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。
LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。
内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:01:57Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z) - Multi-objective Reinforcement learning from AI Feedback [0.0]
本稿では、AIフィードバック(RLAIF)からの強化学習を用いて訓練された言語モデルのアライメントと性能を改善するための新しいアプローチを提案する。
すべての人間の嗜好を表現するために、単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、梅毒といったより単純な原則に分解する。
我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。
論文 参考訳(メタデータ) (2024-06-11T14:24:00Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。