Fugu-MT 論文翻訳(概要): MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models

論文の概要: MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models

arxiv url: http://arxiv.org/abs/2403.17141v3
Date: Mon, 07 Oct 2024 03:19:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:55:03.645332
Title: MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
Title（参考訳）: MetaAligner: 言語モデルの一般化可能な多目的アライメントを目指して
Authors: Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Tianlin Zhang, Sophia Ananiadou,
Abstract要約: 実験結果から,MetaAlignerは10の最先端ポリシーモデル上での多目的アライメントにおいて,有意かつバランスの取れた改善を実現していることがわかった。このモデルはまた、目に見えない目的を効果的に整列させ、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
参考スコア（独自算出の注目度）: 34.48457155471307
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models (LLMs) focus on aligning to heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are dependent on the policy model parameters, which require high-cost repetition of their alignment algorithms for each new policy model, and they cannot expand to unseen objectives due to their static alignment objectives. In this work, we propose Meta-Objective Aligner (MetaAligner), the first policy-agnostic and generalizable method for multi-objective preference alignment. MetaAligner models multi-objective alignment into three stages: (1) dynamic objectives reformulation algorithm reorganizes traditional alignment datasets to supervise the model on performing flexible alignment across different objectives; (2) conditional weak-to-strong correction paradigm aligns the weak outputs of fixed policy models to approach strong outputs with higher preferences in the corresponding alignment objectives, enabling plug-and-play inferences on any policy models, which significantly reduces training costs and facilitates alignment on close-source policy models; (3) generalizable inference method flexibly adjusts target objectives by updating their text descriptions in the prompts, facilitating generalizable alignment to unseen objectives. Experimental results show that MetaAligner achieves significant and balanced improvements in multi-objective alignments on 10 state-of-the-art policy models, and saves up to 93.63% of GPU training hours compared to previous alignment methods. The model also effectively aligns unseen objectives, marking the first step towards generalizable multi-objective preference alignment.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、多目的選好アライメントによる異種人の期待と値の整合に焦点を当てている。しかし、既存の手法は、新しいポリシーモデルごとにアライメントアルゴリズムを高コストで繰り返しなければならないポリシーモデルパラメータに依存しており、静的アライメントの目的のため、見当たらない目的に拡張できない。本稿では,多目的選好アライメントのためのポリシー非依存かつ一般化可能な最初の方法であるMetaAlignerを提案する。 MetaAligner モデルでは,(1) 動的目標修正アルゴリズムが従来のアライメントデータセットを再編成し,異なる目的に対して柔軟なアライメントを行う上で,モデルの監督を行う。(2) 条件付き弱補正パラダイムは,固定されたポリシモデルの弱い出力を,対応するアライメント対象に対して高い好みの強いアウトプットに合わせるように調整し,トレーニングコストを大幅に削減し,クローズソースのポリシモデルへのアライメントを容易にするような,任意のポリシモデルに対するプラグアンドプレイ推論を可能にする。実験の結果,MetaAlignerは10の最先端ポリシーモデルに対して,多目的アライメントの大幅な,バランスの取れた改善を実現し,従来のアライメント手法と比較して最大93.63%のGPUトレーニング時間を節約できることがわかった。このモデルはまた、目に見えない目的を効果的に整列させ、一般化可能な多目的の選好アライメントへの第一歩をマークしている。

関連論文リスト

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models [19.559468441956714]
Reinforcement Learning from Human Feedbackは、大きな言語モデルと人間の好みを整合させる強力なテクニックとして登場した。人的価値アライメントは多目的最適化問題であり、潜在的な競合する対象の集合を最大化することを目的としている。我々は,LLMを様々な好み分布に整合させるために,多段降下を用いた新しい微調整パラダイムであるGAPOを紹介した。
論文参考訳（メタデータ） (2025-07-02T17:25:26Z)
Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文参考訳（メタデータ） (2025-05-16T05:58:26Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-01T02:01:49Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。正確な学習プロセスを形式化し実行することの難しさに悩まされる。本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T03:47:40Z)
Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文参考訳（メタデータ） (2024-11-07T15:26:38Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。 CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文参考訳（メタデータ） (2024-07-22T16:13:38Z)
Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文参考訳（メタデータ） (2024-06-27T02:46:30Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Dynamic value alignment through preference aggregation of multiple objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文参考訳（メタデータ） (2023-10-09T17:07:26Z)
gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文参考訳（メタデータ） (2022-04-11T10:06:49Z)
MetaAlign: Coordinating Domain Alignment and Classification for Unsupervised Domain Adaptation [84.90801699807426]
本稿ではMetaAlignと呼ばれるメタ最適化に基づく効果的な戦略を提案する。ドメインアライメントの目的と分類の目的をメタ学習計画におけるメタトレーニングとメタテストのタスクとして扱う。実験結果は,アライメントに基づくベースラインアプローチを用いた提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-03-25T03:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。