論文の概要: MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
- arxiv url: http://arxiv.org/abs/2403.17141v2
- Date: Mon, 6 May 2024 14:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 23:06:30.736257
- Title: MetaAligner: Towards Generalizable Multi-Objective Alignment of Language Models
- Title(参考訳): MetaAligner: 言語モデルの一般化可能な多目的アライメントを目指して
- Authors: Kailai Yang, Zhiwei Liu, Qianqian Xie, Jimin Huang, Tianlin Zhang, Sophia Ananiadou,
- Abstract要約: 実験結果から,MetaAlignerは10の最先端ポリシーモデル上での多目的アライメントにおいて,有意かつバランスの取れた改善を実現していることがわかった。
このモデルはまた、目に見えない目的を効果的に整列させ、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
- 参考スコア(独自算出の注目度): 34.48457155471307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) aim to tackle heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are parameter-adherent to the policy model, leading to two key limitations: (1) the high-cost repetition of their alignment algorithms for each new target model; (2) they cannot expand to unseen objectives due to their static alignment objectives. In this work, we propose Meta-Objective Aligner (MetaAligner), a model that performs conditional weak-to-strong correction for weak responses to approach strong responses. MetaAligner is the first policy-agnostic and generalizable method for multi-objective preference alignment, which enables plug-and-play alignment by decoupling parameter updates from the policy models and facilitates zero-shot preference alignment for unseen objectives via in-context learning. Experimental results show that MetaAligner achieves significant and balanced improvements in multi-objective alignments on 10 state-of-the-art policy models, and outperforms previous alignment methods with down to 15.71x less GPU training hours. The model also effectively aligns unseen objectives, marking the first step towards generalizable multi-objective preference alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、多目的選好アライメントを通じて、異種人の期待と価値に取り組むことを目的としている。
しかし、既存の手法はポリシーモデルにパラメータ依存しており、(1)新しいターゲットモデルごとに高コストでアライメントアルゴリズムを繰り返すこと、(2)静的アライメント目的のために未確認の目的に拡張できないこと、の2つの主要な制限をもたらす。
本稿では,弱い応答に対して条件付き弱値補正を行い,強い応答に近づくメタオブジェクトアリグナー(MetaAligner)を提案する。
MetaAlignerは、ポリシーモデルからパラメータ更新を分離することでプラグ・アンド・プレイのアライメントを可能にし、コンテキスト内学習を通じて、目に見えない目的に対するゼロショット・リライスアライメントを容易にする、多目的のリライメントアライメントのための最初のポリシーに依存しない一般化可能な方法である。
実験結果から、MetaAlignerは10の最先端ポリシーモデルに対する多目的アライメントの大幅な改善とバランスの取れた改善を実現し、GPUトレーニング時間を最大15.71倍に削減した。
このモデルはまた、目に見えない目的を効果的に整列させ、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
関連論文リスト
- Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。
本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T15:26:38Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。
CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文 参考訳(メタデータ) (2024-07-22T16:13:38Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Dynamic value alignment through preference aggregation of multiple
objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。
本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文 参考訳(メタデータ) (2023-10-09T17:07:26Z) - gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement
Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。
我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文 参考訳(メタデータ) (2022-04-11T10:06:49Z) - MetaAlign: Coordinating Domain Alignment and Classification for
Unsupervised Domain Adaptation [84.90801699807426]
本稿ではMetaAlignと呼ばれるメタ最適化に基づく効果的な戦略を提案する。
ドメインアライメントの目的と分類の目的をメタ学習計画におけるメタトレーニングとメタテストのタスクとして扱う。
実験結果は,アライメントに基づくベースラインアプローチを用いた提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-03-25T03:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。