論文の概要: ALaRM: Align Language Models via Hierarchical Rewards Modeling
- arxiv url: http://arxiv.org/abs/2403.06754v1
- Date: Mon, 11 Mar 2024 14:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:56:27.446124
- Title: ALaRM: Align Language Models via Hierarchical Rewards Modeling
- Title(参考訳): ALaRM:階層的リワードモデリングによるアライン言語モデル
- Authors: Yuhang Lai, Siyuan Wang, Shujun Liu, Xuanjing Huang, Zhongyu Wei
- Abstract要約: ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。
このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。
我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 44.83557463079048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ALaRM, the first framework modeling hierarchical rewards in
reinforcement learning from human feedback (RLHF), which is designed to enhance
the alignment of large language models (LLMs) with human preferences. The
framework addresses the limitations of current alignment approaches, which
often struggle with the inconsistency and sparsity of human supervision
signals, by integrating holistic rewards with aspect-specific rewards. This
integration enables more precise and consistent guidance of language models
towards desired outcomes, particularly in complex and open text generation
tasks. By employing a methodology that filters and combines multiple rewards
based on their consistency, the framework provides a reliable mechanism for
improving model alignment. We validate our approach through applications in
long-form question answering and machine translation tasks, employing
gpt-3.5-turbo for pairwise comparisons, and demonstrate improvements over
existing baselines. Our work underscores the effectiveness of hierarchical
rewards modeling in refining LLM training processes for better human preference
alignment. We release our code at https://ALaRM-fdu.github.io.
- Abstract(参考訳): ALaRMは、人間からのフィードバック(RLHF)からの強化学習における最初の階層的報酬をモデル化するフレームワークであり、大きな言語モデル(LLM)と人間の好みとの整合性を高めるために設計されている。
このフレームワークは、アスペクト固有の報酬と全体報酬を統合することで、人間の監視信号の不整合と疎結合にしばしば苦労する現在のアライメントアプローチの限界に対処する。
この統合により、特に複雑でオープンなテキスト生成タスクにおいて、言語モデルの望ましい結果に対するより正確で一貫したガイダンスが可能になる。
一貫性に基づいて複数の報酬をフィルタし結合する方法論を採用することで、このフレームワークはモデルアライメントを改善するための信頼性の高いメカニズムを提供する。
我々は,長文質問応答と機械翻訳タスクの応用,対比較にgpt-3.5-turboを用い,既存のベースラインよりも改善したことを示す。
本研究は,人間嗜好アライメントを改善するためのllm訓練プロセスの洗練における階層的報酬モデリングの有効性を強調する。
コードをhttps://ALaRM-fdu.github.ioでリリースします。
関連論文リスト
- Rewards-in-Context: Multi-objective Alignment of Foundation Models with
Dynamic Preference Adjustment [48.773648757361975]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model
Feedback [26.001201897655115]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Improving Reinforcement Learning from Human Feedback with Efficient
Reward Model Ensemble [71.44669705576263]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - ARGS: Alignment as Reward-Guided Search [17.420727709895736]
我々は、アライメントをデコードプロセスに統合する新しいフレームワーク、ARGS、アライメントをReward-Guided Searchとして紹介する。
報酬信号を用いてモデルの確率的予測を調整することにより、ARGSは人間の好みに合わせて意味的な多様性を持つテキストを生成する。
当社のフレームワークは,デコード時のアライメントを重視したもので,将来的にはよりレスポンシブな言語モデルの道を開くものと信じています。
論文 参考訳(メタデータ) (2024-01-23T23:42:41Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - SALMON: Self-Alignment with Principle-Following Reward Models [84.31474052176343]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちのアプローチの中心は、原則に従う報酬モデルです。
提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。