論文の概要: MAVIS: Multi-Objective Alignment via Value-Guided Inference-Time Search
- arxiv url: http://arxiv.org/abs/2508.13415v2
- Date: Wed, 20 Aug 2025 13:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 12:38:45.414545
- Title: MAVIS: Multi-Objective Alignment via Value-Guided Inference-Time Search
- Title(参考訳): MAVIS:Value-Guided Inference-Time Searchによる多目的アライメント
- Authors: Jeremy Carleton, Debajoy Mukherjee, Srinivas Shakkottai, Dileep Kalathil,
- Abstract要約: 我々は、値誘導推論時間探索による多目的アライメントMAVISを紹介する。
ベースモデルの重みを変更することなく、LCMの挙動を動的に制御できる。
また,MAVISは,対象物ごとの微調整のベースラインよりも優れており,ポストホックと組み合わせていることを示す。
- 参考スコア(独自算出の注目度): 12.710362645521466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed across diverse applications that demand balancing multiple, often conflicting, objectives -- such as helpfulness, harmlessness, or humor. Aligning outputs to user-specific preferences in such multi-objective settings typically requires fine-tuning models for each objective or preference configuration, which is computationally expensive and inflexible. We introduce MAVIS -- Multi-Objective Alignment via Value-Guided Inference-Time Search -- a lightweight inference-time alignment framework that enables dynamic control over LLM behavior without modifying the base model's weights. MAVIS trains a set of small value models, each corresponding to a distinct objective. At inference time, these value models are combined using user-specified weights to produce a tilting function that adjusts the base model's output distribution toward desired trade-offs. The value models are trained using a simple iterative algorithm that ensures monotonic improvement of the KL-regularized policy. We show empirically that MAVIS outperforms baselines that fine-tune per-objective models and combine them post hoc, and even approaches the performance of the idealized setting where models are fine-tuned for a user's exact preferences.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の、しばしば矛盾する、目的 -- 有用性、無害性、ユーモアなど -- のバランスを必要とする多様なアプリケーションにまたがって、ますますデプロイされている。
このような多目的設定において、出力をユーザ固有の嗜好に調整するには、通常、計算コストが高く、柔軟性のない、目的または選好設定ごとに微調整モデルが必要となる。
MAVIS -- Value-Guided Inference-Time Searchによる多目的アライメント -- ベースモデルの重みを変更することなくLCMの振る舞いを動的に制御できる軽量な推論時間アライメントフレームワーク。
MAVISは小さな値モデルのセットを訓練し、それぞれが異なる目的に対応する。
推定時に、これらの値モデルをユーザ指定の重みを使って組み合わせることで、ベースモデルの出力分布を所望のトレードオフに調整する傾き関数を生成する。
値モデルは、KL規則化ポリシーの単調な改善を保証するための単純な反復アルゴリズムを用いて訓練される。
実験により,MAVISはオブジェクトごとの微調整のベースラインを上回り,それらをポストホックと組み合わせることで,モデルがユーザの正確な好みに合わせて微調整される理想的な設定の性能にアプローチすることを示した。
関連論文リスト
- Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Continuous Language Model Interpolation for Dynamic and Controllable Text Generation [7.535219325248997]
私たちは、モデルが多様な、そしてしばしば変化する、ユーザの好みに動的に適応しなければならない、困難なケースに注目します。
線形重みに基づく適応手法を活用し、連続的なマルチドメイン補間子としてキャストする。
重みの変化がモデル出力の予測可能かつ一貫した変化をもたらすことを示す。
論文 参考訳(メタデータ) (2024-04-10T15:55:07Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。