論文の概要: Preference Orchestrator: Prompt-Aware Multi-Objective Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.10656v1
- Date: Mon, 03 Nov 2025 09:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.229447
- Title: Preference Orchestrator: Prompt-Aware Multi-Objective Alignment for Large Language Models
- Title(参考訳): 参照オーケストレータ:大規模言語モデルのためのプロンプト対応多目的アライメント
- Authors: Biao Liu, Ning Xu, Junming Yang, Xin Geng,
- Abstract要約: 本稿では,プロンプト固有の選好重みを自動推論する軽量な選好アダプタを特徴とする,Pop(PReference Orchestrator)という新しいフレームワークを提案する。
具体的には、好ましくは複数の報酬モデルから正規化報酬スコアをトレーニングすることにより、各プロンプトに対する適切な選好重みを学習する。
提案手法は,多目的アライメントシナリオにおいて,固定された選好重みよりも高い性能を達成できることを理論的解析により証明する。
- 参考スコア(独自算出の注目度): 35.23711225030795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse natural language processing tasks, aligning these models with varying human preferences across multiple objectives remains a significant challenge in practical deployments. Existing multi-objective alignment methods rely on manually specified preference weights, which not only burden users with difficult preference specification tasks but also lead to suboptimal training efficiency due to exploration of irrelevant preference combinations. To alleviate these issues, we propose a novel framework named PRO, i.e., PReference Orchestrator, which features a lightweight preference adapter that automatically infers prompt-specific preference weights during both training and deployment phases. Specifically, the adapter automatically learns appropriate preference weights for each prompt by training on normalized reward scores from multiple reward models for preferred responses, which inherently reflect effective preference balances across objectives. Additionally, We provide theoretical analysis proving that our prompt-aware preference mechanism achieves superior performance compared to fixed preference weights in multi-objective alignment scenarios. Extensive experiments across multiple tasks demonstrate the effectiveness of our method over existing multi-objective alignment approaches.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な能力を示してきたが、これらのモデルを複数の目的にまたがるさまざまな人間の嗜好と整合させることは、実践的なデプロイメントにおいて大きな課題である。
既存の多目的アライメント手法は、手動で指定した選好重みに依存するため、難しい選好仕様タスクのユーザを負担するだけでなく、無関係な選好組み合わせの探索による準最適トレーニング効率も向上する。
これらの問題を緩和するため,P prop と呼ばれる新しいフレームワーク PReference Orchestrator を提案する。PReference Orchestrator は,トレーニングとデプロイメントの両段階において,プロンプト固有の優先重みを自動推論する軽量な優先アダプタを備える。
具体的には、対象物間の効果的な選好バランスを本質的に反映する複数の報奨モデルから、正規化された報奨スコアをトレーニングすることにより、各プロンプトに対する適切な選好重みを自動的に学習する。
さらに,提案手法は,多目的アライメントシナリオにおいて,固定された選好重みよりも高い性能を達成できることを理論的解析により証明する。
複数のタスクにまたがる大規模な実験により,既存の多目的アライメント手法に対する提案手法の有効性が示された。
関連論文リスト
- Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards [13.663839318595505]
私たちは、検証可能で検証不可能な報酬を持つ領域にまたがるモデルを同時に整合させるのに何が必要かに答えようとしています。
本稿では,プロセス報酬モデル(PRM)のトレーニングを,検証可能な設定と検証できない設定の両方にわたって標準化する統合フレームワークを提案する。
数学推論、値アライメント、マルチターン対話による実験は、我々のフレームワークが複数の目的に対して同時に性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-10-01T17:54:15Z) - Preference-based Multi-Objective Reinforcement Learning [5.031225669460861]
本稿では、嗜好のMORLフレームワークへの統合を形式化した嗜好ベースのMORL(Pb-MORL)を紹介する。
そこで本提案手法は,提案した嗜好に適合する多目的報酬モデルを構築する。
ベンチマーク多目的タスク,マルチエネルギー管理タスク,および多線高速道路における自律運転タスクにおける実験結果から,本手法の競争力向上が示唆された。
論文 参考訳(メタデータ) (2025-07-18T16:43:04Z) - Multi-objective Large Language Model Alignment with Hierarchical Experts [39.14442626829845]
textitHoEは、LoRA Experts、Router Experts、Preference Routingの3つの階層的なコンポーネントで構成されている。
我々は、14の目標と6つのベンチマークのうち200の選好に基づいて、様々なタスクにまたがるtextitHoEを評価し、15の最近のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-05-27T09:15:03Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Robust Multi-Objective Preference Alignment with Online DPO [6.434799451791957]
多目的選好アライメントは、パーソナライズ可能で、有用で、安全であるAIシステムの開発に不可欠である。
既存のアプローチは、トレーニングに計算コストがかかるか、モデル動作を十分に制御できないかのいずれかである。
本稿では,多目的オンラインDPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T02:01:49Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Comparison-based Active Preference Learning for Multi-dimensional Personalization [7.349038301460469]
大きな言語モデル(LLM)は目覚ましい成功を収めていますが、それらを人間の好みに合わせることは、依然として重要な課題です。
近年,多次元のパーソナライゼーションが研究されている。これはモデルが明示的な嗜好に合った応答を生成できるようにすることを目的としている。
対話的に収集された比較フィードバックから暗黙的なユーザの嗜好を捉えるために,能動多次元選好学習(AMPLe)を提案する。
論文 参考訳(メタデータ) (2024-11-01T11:49:33Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment [46.44464839353993]
リワード・イン・コンテキスト(Rewards-in-Context, RiC)を導入する。
RiCは単一のファンデーションモデルの教師付き微調整のみを必要とし、推論時間中にユーザの好みを動的に調整する。
論文 参考訳(メタデータ) (2024-02-15T18:58:31Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。