論文の概要: MetaAligner: Conditional Weak-to-Strong Correction for Generalizable Multi-Objective Alignment of Language Models
- arxiv url: http://arxiv.org/abs/2403.17141v1
- Date: Mon, 25 Mar 2024 19:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:45:52.705810
- Title: MetaAligner: Conditional Weak-to-Strong Correction for Generalizable Multi-Objective Alignment of Language Models
- Title(参考訳): MetaAligner:言語モデルの一般化可能な多目的アライメントのための条件付き弱-ストロング補正
- Authors: Kailai Yang, Zhiwei Liu, Qianqian Xie, Tianlin Zhang, Nirui Song, Jimin Huang, Ziyan Kuang, Sophia Ananiadou,
- Abstract要約: 実験結果から,MetaAlignerは最大63倍のパラメータを持つ11のポリシーモデルに対して,多目的アライメントにおける有意かつバランスの取れた改善を実現していることがわかった。
このモデルはまた、目に見えない目的と正確に一致し、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
- 参考スコア(独自算出の注目度): 31.481957409855767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) aim to tackle heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are parameter-adherent to the policy model, leading to two key limitations: (1) the high-cost repetition of their alignment algorithms for each new target model; (2) they cannot expand to unseen objectives due to their static alignment objectives. In this work, we propose Meta-Objective Aligner (MetaAligner), a model that performs conditional weak-to-strong correction for weak responses to approach strong responses. MetaAligner is the first policy-agnostic and generalizable method for multi-objective preference alignment, which enables plug-and-play alignment by decoupling parameter updates from the policy models and facilitates zero-shot preference alignment for unseen objectives via in-context learning. Experimental results show that MetaAligner achieves significant and balanced improvements in multi-objective alignments on 11 policy models with up to 63x more parameters, and outperforms previous alignment methods with down to 22.27x less computational resources. The model also accurately aligns with unseen objectives, marking the first step towards generalizable multi-objective preference alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多目的選好アライメントを通じて、異種人の期待と価値に取り組むことを目的としている。
しかし、既存の手法はポリシーモデルにパラメータ依存しており、(1)新しいターゲットモデルごとに高コストでアライメントアルゴリズムを繰り返すこと、(2)静的アライメント目的のために未確認の目的に拡張できないこと、の2つの主要な制限をもたらす。
本稿では,弱い応答に対して条件付き弱値補正を行い,強い応答に近づくメタオブジェクトアリグナー(MetaAligner)を提案する。
MetaAlignerは、ポリシーモデルからパラメータ更新を分離することでプラグ・アンド・プレイのアライメントを可能にし、コンテキスト内学習を通じて、目に見えない目的に対するゼロショット・リライスアライメントを容易にする、多目的のリライメントアライメントのための最初のポリシーに依存しない一般化可能な方法である。
実験の結果、MetaAlignerは最大63倍のパラメータを持つ11のポリシーモデルにおいて、多目的アライメントの大幅な改善とバランスの取れた改善を実現し、22.27倍の計算資源で従来のアライメント手法よりも優れていた。
このモデルはまた、目に見えない目的と正確に一致し、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
関連論文リスト
- Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。
本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T15:26:38Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。
CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文 参考訳(メタデータ) (2024-07-22T16:13:38Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Dynamic value alignment through preference aggregation of multiple
objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。
本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文 参考訳(メタデータ) (2023-10-09T17:07:26Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z) - MetaAlign: Coordinating Domain Alignment and Classification for
Unsupervised Domain Adaptation [84.90801699807426]
本稿ではMetaAlignと呼ばれるメタ最適化に基づく効果的な戦略を提案する。
ドメインアライメントの目的と分類の目的をメタ学習計画におけるメタトレーニングとメタテストのタスクとして扱う。
実験結果は,アライメントに基づくベースラインアプローチを用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-03-25T03:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。