論文の概要: UniARM: Towards a Unified Autoregressive Reward Model for Multi-Objective Test-Time Alignment
- arxiv url: http://arxiv.org/abs/2602.09538v1
- Date: Tue, 10 Feb 2026 08:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.458765
- Title: UniARM: Towards a Unified Autoregressive Reward Model for Multi-Objective Test-Time Alignment
- Title(参考訳): UniARM:多目的テスト時間アライメントのための統一された自己回帰リワードモデルを目指して
- Authors: Hongyan Xie, Yikun Ban, Ruiyu Fang, Zixuan Huang, Deqing Wang, Jianxin Li, Yitong Yao, Chao Wang, Shuangyong Song,
- Abstract要約: ARMトレーニングのためのPreference-Modulated and Shared Low-Rank Adaptation (MoSLoRA)を提案する。
MoSLoRAは特徴の絡みを緩和し、推論中に好みのトレードオフを正確に制御できる。
我々は,多目的テストタイムアライメントのための新しいフレームワークUnified Autoregressive Reward Model(UniARM)を紹介する。
- 参考スコア(独自算出の注目度): 30.711521764097657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective alignment aims to align LLM responses with multiple human preference objectives. Among existing methods, guiding the generation of frozen LLMs through autoregressive reward models (ARMs) to accomplish multi-objective test-time alignment is a low-cost solution. However, these methods typically rely on independent parameters for each preference objective, either by training ARMs independently across preference dimensions, which neglects interactions among preference features, or by training a single ARM with separate feature extraction modules for each preference, which can cause feature entanglement. Both strategies can result in misalignment between generated outputs and user preferences. To address this limitation, we propose Preference-Modulated \& Shared Low-Rank Adaptation (MoSLoRA) for ARM training, which first extracts shared features via a preference-agnostic module and then applies affine transformations to shared features via a preference modulation module conditioned on mixed preference vectors. This design mitigates feature entanglement and enables precise control over preference trade-offs during inference. Building on this, we introduce the Unified Autoregressive Reward Model (UniARM), a novel framework for multi-objective test-time alignment. UniARM jointly models all preference dimensions in a single parameter space, eliminating the need for independent parameters for each preference objective. es on larger-scale LLMs, enhancing its practical usability.
- Abstract(参考訳): 多目的アライメントは、LLM応答を複数の人間の嗜好目標に合わせることを目的としている。
従来の手法では、自己回帰報酬モデル(ARM)による凍結LDMの生成を誘導し、多目的テスト時間アライメントを実現することは低コストのソリューションである。
しかし、これらの手法は、通常、各好みの目的に対して独立したパラメータに依存しており、好みの特徴間の相互作用を無視したARMを個別に訓練するか、または、それぞれの好みのために別々の特徴抽出モジュールを持つ単一のARMを訓練することで、特徴の絡み合いを引き起こす可能性がある。
どちらの戦略も、生成された出力とユーザの好みの相違をもたらす可能性がある。
この制限に対処するために、ARMトレーニングのためのPreference-Modulated \& Shared Low-Rank Adaptation (MoSLoRA)を提案する。
この設計は、特徴絡みを緩和し、推論中に好みのトレードオフを正確に制御できる。
これに基づいて、多目的テスト時間アライメントのための新しいフレームワークUnified Autoregressive Reward Model (UniARM)を導入する。
UniARMは、単一のパラメータ空間におけるすべての選好次元を共同でモデル化し、それぞれの選好目的に対する独立したパラメータの必要性を排除する。
より大型のLCMを開発、実用性を高めた。
関連論文リスト
- ARM: Role-Conditioned Neuron Transplantation for Training-Free Generalist LLM Agent Merging [51.409102048965394]
エージェント・ロール・マージング(ARM)は、LLMエージェントのモデルマージングのための活性化誘導されたロール条件のニューロン移植法である。
ARMは、静的自然言語タスクからマルチターンエージェントシナリオまで、既存のマージメソッドを改善している。
論文 参考訳(メタデータ) (2026-01-12T08:31:53Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model [19.953213366157527]
提案する Preference-aware ARM (PARM) は,すべての選好次元で訓練された単一の統一ARMである。
実験により、PARMは推論コストを削減し、既存の手法と比較して好みベクトルとの整合性を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-06T15:42:31Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - PD-MORL: Preference-Driven Multi-Objective Reinforcement Learning
Algorithm [0.18416014644193063]
本稿では,連続ロボット作業にスケーラブルな選好空間全体をカバーするために,単一のユニバーサルネットワークをトレーニングする新しいMORLアルゴリズムを提案する。
PD-MORLは、連続制御タスクに挑戦するために最大25%大きなハイパーボリュームを達成する。
論文 参考訳(メタデータ) (2022-08-16T19:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。