論文の概要: PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model
- arxiv url: http://arxiv.org/abs/2505.06274v1
- Date: Tue, 06 May 2025 15:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.730061
- Title: PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model
- Title(参考訳): PARM: 優先度を考慮した自己回帰回帰モデルによる多目的テスト時間アライメント
- Authors: Baijiong Lin, Weisen Jiang, Yuancheng Xu, Hao Chen, Ying-Cong Chen,
- Abstract要約: 提案する Preference-aware ARM (PARM) は,すべての選好次元で訓練された単一の統一ARMである。
実験により、PARMは推論コストを削減し、既存の手法と比較して好みベクトルとの整合性を向上させることが示された。
- 参考スコア(独自算出の注目度): 19.953213366157527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective test-time alignment aims to adapt large language models (LLMs) to diverse multi-dimensional user preferences during inference while keeping LLMs frozen. Recently, GenARM (Xu et al., 2025) first independently trains Autoregressive Reward Models (ARMs) for each preference dimension without awareness of each other, then combines their outputs based on user-specific preference vectors during inference to achieve multi-objective test-time alignment, leading to two key limitations: the need for \textit{multiple} ARMs increases the inference cost, and the separate training of ARMs causes the misalignment between the guided generation and the user preferences. To address these issues, we propose Preference-aware ARM (PARM), a single unified ARM trained across all preference dimensions. PARM uses our proposed Preference-Aware Bilinear Low-Rank Adaptation (PBLoRA), which employs a bilinear form to condition the ARM on preference vectors, enabling it to achieve precise control over preference trade-offs during inference. Experiments demonstrate that PARM reduces inference costs and achieves better alignment with preference vectors compared with existing methods. Additionally, PARM enables weak-to-strong guidance, allowing a smaller PARM to guide a larger frozen LLM without expensive training, making multi-objective alignment accessible with limited computing resources. The code is available at https://github.com/Baijiong-Lin/PARM.
- Abstract(参考訳): 多目的テストタイムアライメントは、LLMを凍結したまま、推論中に多次元のユーザ嗜好に適応することを目的としている。
最近、GenARM (Xu et al , 2025) はまず、各選好次元の自己回帰リワードモデル (ARMs) を互いに意識せずに個別に訓練し、その後、推論中にユーザ固有の選好ベクトルに基づいて出力を結合し、多目的のテスト時間アライメントを実現する。
これらの問題に対処するために、すべての選好次元で訓練された単一の統一ARMであるPreference-aware ARM (PARM)を提案する。
PARM は提案した Preference-Aware Bilinear Low-Rank Adaptation (PBLoRA) を用いており、これはbilinear 形式を用いて、ARM を選好ベクトルに条件付けし、推論中に選好トレードオフを正確に制御できるようにする。
実験により、PARMは推論コストを削減し、既存の手法と比較して好みベクトルとの整合性を向上させることが示された。
さらに、PARMは弱いストロング誘導を可能にし、より小さなPARMは、高価なトレーニングなしでより大きな凍結LDMをガイドし、限られたコンピューティングリソースで多目的アライメントにアクセスできるようにする。
コードはhttps://github.com/Baijiong-Lin/PARM.comで入手できる。
関連論文リスト
- Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment [36.52424795446663]
大きな言語モデル(LLM)は印象的な能力を示すが、人間の好みに注意深く対応する必要がある。
テストタイムアライメント手法は、報酬モデル(RM)を使用して凍結したLLMを再トレーニングせずにガイドすることでこの問題に対処する。
我々は、Autoregressive Reward Modelを活用するテスト時間アライメントアプローチであるGenARMを紹介する。
論文 参考訳(メタデータ) (2024-10-10T17:58:24Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Arithmetic Control of LLMs for Diverse User Preferences: Directional
Preference Alignment with Multi-Objective Rewards [32.799198549439716]
大規模言語モデル(LLM)の整合化のためのDPA(Directional Preference Alignment)フレームワークを導入する。
スカラー・リワードのRLHFとは異なり、DPAは多目的報酬モデルを導入し、多様な好みプロファイルを表現している。
本手法は有用性と冗長性の間のトレードオフを算術的に簡単に制御する。
論文 参考訳(メタデータ) (2024-02-28T18:58:25Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。