Fugu-MT 論文翻訳(概要): ALaRM: Align Language Models via Hierarchical Rewards Modeling

論文の概要: ALaRM: Align Language Models via Hierarchical Rewards Modeling

arxiv url: http://arxiv.org/abs/2403.06754v1
Date: Mon, 11 Mar 2024 14:28:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 18:56:27.446124
Title: ALaRM: Align Language Models via Hierarchical Rewards Modeling
Title（参考訳）: ALaRM:階層的リワードモデリングによるアライン言語モデル
Authors: Yuhang Lai, Siyuan Wang, Shujun Liu, Xuanjing Huang, Zhongyu Wei
Abstract要約: ALaRMは、人間からのフィードバックから強化学習において、階層的な報酬をモデル化する最初のフレームワークである。このフレームワークは、全体的な報酬とアスペクト固有の報酬を統合することで、現在のアライメントアプローチの限界に対処する。我々は、長文質問応答および機械翻訳タスクの応用を通して、我々のアプローチを検証する。
参考スコア（独自算出の注目度）: 44.83557463079048
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce ALaRM, the first framework modeling hierarchical rewards in reinforcement learning from human feedback (RLHF), which is designed to enhance the alignment of large language models (LLMs) with human preferences. The framework addresses the limitations of current alignment approaches, which often struggle with the inconsistency and sparsity of human supervision signals, by integrating holistic rewards with aspect-specific rewards. This integration enables more precise and consistent guidance of language models towards desired outcomes, particularly in complex and open text generation tasks. By employing a methodology that filters and combines multiple rewards based on their consistency, the framework provides a reliable mechanism for improving model alignment. We validate our approach through applications in long-form question answering and machine translation tasks, employing gpt-3.5-turbo for pairwise comparisons, and demonstrate improvements over existing baselines. Our work underscores the effectiveness of hierarchical rewards modeling in refining LLM training processes for better human preference alignment. We release our code at https://ALaRM-fdu.github.io.
Abstract（参考訳）: ALaRMは、人間からのフィードバック(RLHF)からの強化学習における最初の階層的報酬をモデル化するフレームワークであり、大きな言語モデル(LLM)と人間の好みとの整合性を高めるために設計されている。このフレームワークは、アスペクト固有の報酬と全体報酬を統合することで、人間の監視信号の不整合と疎結合にしばしば苦労する現在のアライメントアプローチの限界に対処する。この統合により、特に複雑でオープンなテキスト生成タスクにおいて、言語モデルの望ましい結果に対するより正確で一貫したガイダンスが可能になる。一貫性に基づいて複数の報酬をフィルタし結合する方法論を採用することで、このフレームワークはモデルアライメントを改善するための信頼性の高いメカニズムを提供する。我々は,長文質問応答と機械翻訳タスクの応用,対比較にgpt-3.5-turboを用い,既存のベースラインよりも改善したことを示す。本研究は,人間嗜好アライメントを改善するためのllm訓練プロセスの洗練における階層的報酬モデリングの有効性を強調する。コードをhttps://ALaRM-fdu.github.ioでリリースします。

関連論文リスト

Unified Personalized Reward Model for Vision Generation [27.496220369122494]
視覚生成のためのパーソナライズされた報酬モデルであるUnifiedReward-Flexを提案する。我々はまず,高度閉ソースVLMからブートストラップSFTまで,構造化された高品質な推論トレースを蒸留した。次に、慎重にキュレートされた選好ペア上で直接選好最適化(DPO)を行い、推論の忠実度と識別的アライメントをさらに強化する。
論文参考訳（メタデータ） (2026-02-02T17:44:21Z)
A First-Order Logic-Based Alternative to Reward Models in RLHF [0.0]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の価値観と嗜好の整合において重要な役割を果たす。既存のアプローチは報酬モデルに大きく依存し、言語モデルから人間に沿った行動へと導く。本稿では,従来の報酬モデルに代わる論理類似性に基づく報酬機構を提案する。
論文参考訳（メタデータ） (2025-12-16T05:15:17Z)
Beyond Monolithic Rewards: A Hybrid and Multi-Aspect Reward Optimization for MLLM Alignment [1.8552770604791606]
相補的な報酬パラダイムを統合するハイブリッド報酬モデリングフレームワークを提案する。ハイブリッドおよびマルチアスペクト報酬モデルを適用する際に、異なるマルチモーダルベンチマーク間で一貫した改善を示す。 3Bファミリーで最高のパフォーマンスモデルでは、一般および数学の推論タスクで平均9.5%の改善を実現しています。
論文参考訳（メタデータ） (2025-10-06T18:53:23Z)
Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文参考訳（メタデータ） (2025-07-02T05:10:29Z)
Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T02:32:03Z)
Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models [21.781693384336567]
トレーニングを通じて報酬モデルのプロンプトを動的に洗練するメタリワードモデルを統合するフレームワークを導入する。 MPOはより安定したポリシー最適化を促進し、手動報酬プロンプト設計の必要性を大幅に低減する。広範囲に手作りの報酬プロンプトによって導かれるモデルと同等以上のパフォーマンスが得られる。
論文参考訳（メタデータ） (2025-04-28T18:02:35Z)
A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization [18.892740849961456]
Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルと人間の好みを協調させる重要なパラダイムとして生まれてきた。本稿では,これらの課題に対処するRLHFフレームワークであるPairwise-RLを紹介する。
論文参考訳（メタデータ） (2025-04-07T11:34:48Z)
EAGER-LLM: Enhancing Large Language Models as Recommenders through Exogenous Behavior-Semantic Integration [60.47645731801866]
大規模言語モデル(LLM)は、高度なレコメンデータシステムの基本バックボーンとしてますます活用されている。 LLMは事前訓練された言語意味論であるが、llm-Backboneを通してゼロから協調意味論を学ぶ。内因性行動情報と内因性行動情報とを非侵襲的に統合するデコーダのみの生成推薦フレームワークであるEAGER-LLMを提案する。
論文参考訳（メタデータ） (2025-02-20T17:01:57Z)
HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文参考訳（メタデータ） (2024-07-04T23:26:56Z)
Multi-objective Reinforcement learning from AI Feedback [0.0]
本稿では、AIフィードバック(RLAIF)からの強化学習を用いて訓練された言語モデルのアライメントと性能を改善するための新しいアプローチを提案する。すべての人間の嗜好を表現するために、単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、梅毒といったより単純な原則に分解する。我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。
論文参考訳（メタデータ） (2024-06-11T14:24:00Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
ARGS: Alignment as Reward-Guided Search [17.420727709895736]
我々は、アライメントをデコードプロセスに統合する新しいフレームワーク、ARGS、アライメントをReward-Guided Searchとして紹介する。報酬信号を用いてモデルの確率的予測を調整することにより、ARGSは人間の好みに合わせて意味的な多様性を持つテキストを生成する。当社のフレームワークは,デコード時のアライメントを重視したもので,将来的にはよりレスポンシブな言語モデルの道を開くものと信じています。
論文参考訳（メタデータ） (2024-01-23T23:42:41Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。