論文の概要: MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
- arxiv url: http://arxiv.org/abs/2403.17141v3
- Date: Mon, 07 Oct 2024 03:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:43:06.891614
- Title: MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
- Title(参考訳): MetaAligner: 言語モデルの一般化可能な多目的アライメントを目指して
- Authors: Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Tianlin Zhang, Sophia Ananiadou,
- Abstract要約: 実験結果から,MetaAlignerは10の最先端ポリシーモデル上での多目的アライメントにおいて,有意かつバランスの取れた改善を実現していることがわかった。
このモデルはまた、目に見えない目的を効果的に整列させ、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
- 参考スコア(独自算出の注目度): 34.48457155471307
- License:
- Abstract: Recent advancements in large language models (LLMs) focus on aligning to heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are dependent on the policy model parameters, which require high-cost repetition of their alignment algorithms for each new policy model, and they cannot expand to unseen objectives due to their static alignment objectives. In this work, we propose Meta-Objective Aligner (MetaAligner), the first policy-agnostic and generalizable method for multi-objective preference alignment. MetaAligner models multi-objective alignment into three stages: (1) dynamic objectives reformulation algorithm reorganizes traditional alignment datasets to supervise the model on performing flexible alignment across different objectives; (2) conditional weak-to-strong correction paradigm aligns the weak outputs of fixed policy models to approach strong outputs with higher preferences in the corresponding alignment objectives, enabling plug-and-play inferences on any policy models, which significantly reduces training costs and facilitates alignment on close-source policy models; (3) generalizable inference method flexibly adjusts target objectives by updating their text descriptions in the prompts, facilitating generalizable alignment to unseen objectives. Experimental results show that MetaAligner achieves significant and balanced improvements in multi-objective alignments on 10 state-of-the-art policy models, and saves up to 93.63% of GPU training hours compared to previous alignment methods. The model also effectively aligns unseen objectives, marking the first step towards generalizable multi-objective preference alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多目的選好アライメントによる異種人の期待と値の整合に焦点を当てている。
しかし、既存の手法は、新しいポリシーモデルごとにアライメントアルゴリズムを高コストで繰り返しなければならないポリシーモデルパラメータに依存しており、静的アライメントの目的のため、見当たらない目的に拡張できない。
本稿では,多目的選好アライメントのためのポリシー非依存かつ一般化可能な最初の方法であるMetaAlignerを提案する。
MetaAligner モデルでは,(1) 動的目標修正アルゴリズムが従来のアライメントデータセットを再編成し,異なる目的に対して柔軟なアライメントを行う上で,モデルの監督を行う。(2) 条件付き弱補正パラダイムは,固定されたポリシモデルの弱い出力を,対応するアライメント対象に対して高い好みの強いアウトプットに合わせるように調整し,トレーニングコストを大幅に削減し,クローズソースのポリシモデルへのアライメントを容易にするような,任意のポリシモデルに対するプラグアンドプレイ推論を可能にする。
実験の結果,MetaAlignerは10の最先端ポリシーモデルに対して,多目的アライメントの大幅な,バランスの取れた改善を実現し,従来のアライメント手法と比較して最大93.63%のGPUトレーニング時間を節約できることがわかった。
このモデルはまた、目に見えない目的を効果的に整列させ、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
関連論文リスト
- Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。
本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T15:26:38Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。
CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文 参考訳(メタデータ) (2024-07-22T16:13:38Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Dynamic value alignment through preference aggregation of multiple
objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。
本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文 参考訳(メタデータ) (2023-10-09T17:07:26Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z) - MetaAlign: Coordinating Domain Alignment and Classification for
Unsupervised Domain Adaptation [84.90801699807426]
本稿ではMetaAlignと呼ばれるメタ最適化に基づく効果的な戦略を提案する。
ドメインアライメントの目的と分類の目的をメタ学習計画におけるメタトレーニングとメタテストのタスクとして扱う。
実験結果は,アライメントに基づくベースラインアプローチを用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-03-25T03:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。