Fugu-MT 論文翻訳(概要): MetaAligner: Conditional Weak-to-Strong Correction for Generalizable Multi-Objective Alignment of Language Models

論文の概要: MetaAligner: Conditional Weak-to-Strong Correction for Generalizable Multi-Objective Alignment of Language Models

arxiv url: http://arxiv.org/abs/2403.17141v1
Date: Mon, 25 Mar 2024 19:28:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 19:45:52.705810
Title: MetaAligner: Conditional Weak-to-Strong Correction for Generalizable Multi-Objective Alignment of Language Models
Title（参考訳）: MetaAligner:言語モデルの一般化可能な多目的アライメントのための条件付き弱-ストロング補正
Authors: Kailai Yang, Zhiwei Liu, Qianqian Xie, Tianlin Zhang, Nirui Song, Jimin Huang, Ziyan Kuang, Sophia Ananiadou,
Abstract要約: 実験結果から,MetaAlignerは最大63倍のパラメータを持つ11のポリシーモデルに対して,多目的アライメントにおける有意かつバランスの取れた改善を実現していることがわかった。このモデルはまた、目に見えない目的と正確に一致し、一般化可能な多目的の選好アライメントへの第一歩をマークしている。
参考スコア（独自算出の注目度）: 31.481957409855767
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in large language models (LLMs) aim to tackle heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are parameter-adherent to the policy model, leading to two key limitations: (1) the high-cost repetition of their alignment algorithms for each new target model; (2) they cannot expand to unseen objectives due to their static alignment objectives. In this work, we propose Meta-Objective Aligner (MetaAligner), a model that performs conditional weak-to-strong correction for weak responses to approach strong responses. MetaAligner is the first policy-agnostic and generalizable method for multi-objective preference alignment, which enables plug-and-play alignment by decoupling parameter updates from the policy models and facilitates zero-shot preference alignment for unseen objectives via in-context learning. Experimental results show that MetaAligner achieves significant and balanced improvements in multi-objective alignments on 11 policy models with up to 63x more parameters, and outperforms previous alignment methods with down to 22.27x less computational resources. The model also accurately aligns with unseen objectives, marking the first step towards generalizable multi-objective preference alignment.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、多目的選好アライメントを通じて、異種人の期待と価値に取り組むことを目的としている。しかし、既存の手法はポリシーモデルにパラメータ依存しており、(1)新しいターゲットモデルごとに高コストでアライメントアルゴリズムを繰り返すこと、(2)静的アライメント目的のために未確認の目的に拡張できないこと、の2つの主要な制限をもたらす。本稿では,弱い応答に対して条件付き弱値補正を行い,強い応答に近づくメタオブジェクトアリグナー(MetaAligner)を提案する。 MetaAlignerは、ポリシーモデルからパラメータ更新を分離することでプラグ・アンド・プレイのアライメントを可能にし、コンテキスト内学習を通じて、目に見えない目的に対するゼロショット・リライスアライメントを容易にする、多目的のリライメントアライメントのための最初のポリシーに依存しない一般化可能な方法である。実験の結果、MetaAlignerは最大63倍のパラメータを持つ11のポリシーモデルにおいて、多目的アライメントの大幅な改善とバランスの取れた改善を実現し、22.27倍の計算資源で従来のアライメント手法よりも優れていた。このモデルはまた、目に見えない目的と正確に一致し、一般化可能な多目的の選好アライメントへの第一歩をマークしている。

関連論文リスト

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models [19.559468441956714]
Reinforcement Learning from Human Feedbackは、大きな言語モデルと人間の好みを整合させる強力なテクニックとして登場した。人的価値アライメントは多目的最適化問題であり、潜在的な競合する対象の集合を最大化することを目的としている。我々は,LLMを様々な好み分布に整合させるために,多段降下を用いた新しい微調整パラダイムであるGAPOを紹介した。
論文参考訳（メタデータ） (2025-07-02T17:25:26Z)
Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文参考訳（メタデータ） (2025-05-16T05:58:26Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-01T02:01:49Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。正確な学習プロセスを形式化し実行することの難しさに悩まされる。本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T03:47:40Z)
Navigating Trade-offs: Policy Summarization for Multi-Objective Reinforcement Learning [10.848218400641466]
多目的強化学習(MORL)は、複数の目的を含む問題を解決するために用いられる。本稿では,MORL が生成する解集合をクラスタリングする手法を提案する。
論文参考訳（メタデータ） (2024-11-07T15:26:38Z)
MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。 LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文参考訳（メタデータ） (2024-10-18T05:31:13Z)
Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning [72.46388818127105]
Conditional Language Policy (CLP) は、複数の目的に対して言語モデルを微調整するためのフレームワークである。 CLPは、推論時に競合する目的を効果的にトレードオフするステアブルモデルを学ぶ。
論文参考訳（メタデータ） (2024-07-22T16:13:38Z)
Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文参考訳（メタデータ） (2024-06-27T02:46:30Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Dynamic value alignment through preference aggregation of multiple objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文参考訳（メタデータ） (2023-10-09T17:07:26Z)
gTLO: A Generalized and Non-linear Multi-Objective Deep Reinforcement Learning Approach [2.0305676256390934]
Generalized Thresholded Lexicographic Ordering (gTLO)は、非線形MORLと一般化MORLの利点を組み合わせた新しい手法である。我々は、非線形MORLの標準ベンチマークと製造プロセス制御の領域からの実世界の応用について有望な結果を示す。
論文参考訳（メタデータ） (2022-04-11T10:06:49Z)
MetaAlign: Coordinating Domain Alignment and Classification for Unsupervised Domain Adaptation [84.90801699807426]
本稿ではMetaAlignと呼ばれるメタ最適化に基づく効果的な戦略を提案する。ドメインアライメントの目的と分類の目的をメタ学習計画におけるメタトレーニングとメタテストのタスクとして扱う。実験結果は,アライメントに基づくベースラインアプローチを用いた提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-03-25T03:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。