論文の概要: 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
- arxiv url: http://arxiv.org/abs/2410.19720v1
- Date: Fri, 25 Oct 2024 17:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:56.515115
- Title: 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
- Title(参考訳): 2D-DPO:2次元スーパービジョンによるスケーリング直接選好最適化
- Authors: Shilong Li, Yancheng He, Hui Huang, Xingyuan Bu, Jiaheng Liu, Hangyu Guo, Weixun Wang, Jihao Gu, Wenbo Su, Bo Zheng,
- Abstract要約: 我々はDPOの嗜好を2次元(セグメントとアスペクト)に拡張することを提案する。
我々は2D-DPOフレームワークを開発し、その全体的目的をマルチセグメントとマルチアスペクトの目的に分解する。
- 参考スコア(独自算出の注目度): 28.742104593747033
- License:
- Abstract: Recent advancements in Direct Preference Optimization (DPO) have significantly enhanced the alignment of Large Language Models (LLMs) with human preferences, owing to its simplicity and effectiveness. However, existing methods typically optimize a scalar score or ranking reward, thereby overlooking the multi-dimensional nature of human preferences. In this work, we propose to extend the preference of DPO to two dimensions: segments and aspects. We first introduce a 2D supervision dataset called HelpSteer-2D. For the segment dimension, we divide the response into sentences and assign scores to each segment. For the aspect dimension, we meticulously design several criteria covering the response quality rubrics. With the 2-dimensional signals as feedback, we develop a 2D-DPO framework, decomposing the overall objective into multi-segment and multi-aspect objectives. Extensive experiments on popular benchmarks demonstrate that 2D-DPO performs better than methods that optimize for scalar or 1-dimensional preferences.
- Abstract(参考訳): 直接選好最適化(DPO)の最近の進歩は、その単純さと有効性から、大規模言語モデル(LLM)と人間の選好との整合性を大幅に向上させてきた。
しかし、既存の手法は通常、スカラースコアやランキング報酬を最適化し、人間の好みの多次元的な性質を見越す。
本研究では,DPOの嗜好を2次元(セグメントとアスペクト)に拡張することを提案する。
本稿ではまず,HelpSteer-2Dという2次元監視データセットを紹介する。
セグメント次元については、応答を文に分割し、各セグメントにスコアを割り当てる。
アスペクト次元については,応答品質を規定するいくつかの基準を慎重に設計する。
2次元信号をフィードバックとして、2次元DPOフレームワークを開発し、その全体的目的をマルチセグメントとマルチアスペクトの目的に分解する。
2D-DPOはスカラーや1次元の選好を最適化する手法よりも優れた性能を示す。
関連論文リスト
- Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization [75.55167570591063]
人間の好みを3D生成プロセスに統合する最適化ベースのフレームワークであるDreamDPOを提案する。
DreamDPOは、きめ細かい制御性を実現しながら、正確なポイントワイドの品質評価への依存を減らす。
実験により、DreamDPOは競争力を発揮し、高品質で制御可能な3Dコンテンツを提供することが示された。
論文 参考訳(メタデータ) (2025-02-05T11:03:08Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning [12.083649916114402]
本研究では,4次元にまたがるバランスの取れた要約を生成するために,多目的強化学習を提案する。
従来のROUGEベースの報酬が参照サマリーに依存しているのとは違って、QAベースの報酬モデルが人間の好みに合わせている。
提案手法は, 代表的な要約データセットのベースラインモデルと比較して, かなりの性能向上を達成した。
論文 参考訳(メタデータ) (2024-06-01T05:15:12Z) - Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。
DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。
提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Preference optimization of protein language models as a multi-objective
binder design paradigm [0.0]
命令の微調整と直接選好最適化に基づく多目的バインダー設計パラダイムを提案する。
提案したアライメント戦略により,ProtGPT2は特定の受容体に条件付けられたバインダーを効果的に設計し,薬物発生性基準を策定できることを示す。
論文 参考訳(メタデータ) (2024-03-07T03:36:03Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。