論文の概要: ParetoHqD: Fast Offline Multiobjective Alignment of Large Language Models using Pareto High-quality Data
- arxiv url: http://arxiv.org/abs/2504.16628v1
- Date: Wed, 23 Apr 2025 11:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:43:35.844212
- Title: ParetoHqD: Fast Offline Multiobjective Alignment of Large Language Models using Pareto High-quality Data
- Title(参考訳): ParetoHqD:Pareto高品質データを用いた大規模言語モデルの高速オフライン多目的アライメント
- Authors: Haoran Gu, Handing Wang, Yi Mei, Mengjie Zhang, Yaochu Jin,
- Abstract要約: 多目的アライメントアルゴリズムは高い性能と効率を示している。
不適切な選好表現と不均衡報酬スコアによるトレーニングは、そのようなアルゴリズムの性能を制限する。
- 参考スコア(独自算出の注目度): 20.42976162135529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models with multiple human expectations and values is crucial for ensuring that they adequately serve a variety of user needs. To this end, offline multiobjective alignment algorithms such as the Rewards-in-Context algorithm have shown strong performance and efficiency. However, inappropriate preference representations and training with imbalanced reward scores limit the performance of such algorithms. In this work, we introduce ParetoHqD that addresses the above issues by representing human preferences as preference directions in the objective space and regarding data near the Pareto front as ''high-quality'' data. For each preference, ParetoHqD follows a two-stage supervised fine-tuning process, where each stage uses an individual Pareto high-quality training set that best matches its preference direction. The experimental results have demonstrated the superiority of ParetoHqD over five baselines on two multiobjective alignment tasks.
- Abstract(参考訳): 複数の人間の期待と価値を伴って大きな言語モデルをアライメントすることは、さまざまなユーザニーズに適切に対応できるようにする上で非常に重要です。
この目的のために、Rewards-in-Contextアルゴリズムのようなオフライン多目的アライメントアルゴリズムは、高い性能と効率を示した。
しかし、不適切な選好表現と不均衡報酬スコアによるトレーニングは、そのようなアルゴリズムの性能を制限する。
本研究では,この課題に対処するParetoHqDを導入し,人間の嗜好を客観空間における嗜好方向として表現し,Paretoフロント付近のデータを「高品質」データとして扱う。
それぞれの好みについて、ParetoHqDは2段階の教師付き微調整プロセスに従っており、各段階は好みの方向に最も合う個別のPareto高品質なトレーニングセットを使用する。
実験により,2つの多目的アライメントタスクにおいて,ParetoHqDが5つのベースラインよりも優れていることが示された。
関連論文リスト
- Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Preference Inference from Demonstration in Multi-objective Multi-agent
Decision Making [0.0]
本稿では,最適あるいは準最適のいずれかから線形選好重みを推定するアルゴリズムを提案する。
実験結果から, ベースラインアルゴリズムと比較して有意な改善が得られた。
今後,マルチエージェントシステムにおけるアルゴリズムの有効性を評価することを計画している。
論文 参考訳(メタデータ) (2023-04-27T12:19:28Z) - Pareto Manifold Learning: Tackling multiple tasks via ensembles of
single-task models [50.33956216274694]
マルチタスク学習(MTL)では、タスクは、ソリューションへの最適化を導くのではなく、互いに達成したパフォーマンスを競い、制限することができる。
重み空間におけるアンサンブル手法であるTextitPareto Manifold Learningを提案する。
論文 参考訳(メタデータ) (2022-10-18T11:20:54Z) - Pareto Navigation Gradient Descent: a First-Order Algorithm for
Optimization in Pareto Set [17.617944390196286]
マルチタスク学習のような現代の機械学習アプリケーションは、複数の目的関数をトレードオフするために最適なモデルパラメータを見つける必要がある。
勾配情報のみを用いてOPT-in-Paretoを近似的に解く1次アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-17T04:07:04Z) - Multi-Objective Learning to Predict Pareto Fronts Using Hypervolume
Maximization [0.0]
現実の問題は、しばしば多目的であり、意思決定者は、対立する目的の間のトレードオフが好ましい優先順位を特定できない。
本研究では,学習者の集合に対応する平均損失ベクトルの高体積(HV)を最大化することにより,パレートフロントを推定する新しい学習手法を提案する。
提案手法では,学習者の集合を動的損失関数で多目的に訓練し,各学習者の損失をHV最大化勾配によって重み付けする。
3つの異なる多目的タスクに対する実験は、学習者の集合の出力が実際に十分に拡散していることを示している
論文 参考訳(メタデータ) (2021-02-08T20:41:21Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。