論文の概要: 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
- arxiv url: http://arxiv.org/abs/2410.19720v1
- Date: Fri, 25 Oct 2024 17:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:56.515115
- Title: 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
- Title(参考訳): 2D-DPO:2次元スーパービジョンによるスケーリング直接選好最適化
- Authors: Shilong Li, Yancheng He, Hui Huang, Xingyuan Bu, Jiaheng Liu, Hangyu Guo, Weixun Wang, Jihao Gu, Wenbo Su, Bo Zheng,
- Abstract要約: 我々はDPOの嗜好を2次元(セグメントとアスペクト)に拡張することを提案する。
我々は2D-DPOフレームワークを開発し、その全体的目的をマルチセグメントとマルチアスペクトの目的に分解する。
- 参考スコア(独自算出の注目度): 28.742104593747033
- License:
- Abstract: Recent advancements in Direct Preference Optimization (DPO) have significantly enhanced the alignment of Large Language Models (LLMs) with human preferences, owing to its simplicity and effectiveness. However, existing methods typically optimize a scalar score or ranking reward, thereby overlooking the multi-dimensional nature of human preferences. In this work, we propose to extend the preference of DPO to two dimensions: segments and aspects. We first introduce a 2D supervision dataset called HelpSteer-2D. For the segment dimension, we divide the response into sentences and assign scores to each segment. For the aspect dimension, we meticulously design several criteria covering the response quality rubrics. With the 2-dimensional signals as feedback, we develop a 2D-DPO framework, decomposing the overall objective into multi-segment and multi-aspect objectives. Extensive experiments on popular benchmarks demonstrate that 2D-DPO performs better than methods that optimize for scalar or 1-dimensional preferences.
- Abstract(参考訳): 直接選好最適化(DPO)の最近の進歩は、その単純さと有効性から、大規模言語モデル(LLM)と人間の選好との整合性を大幅に向上させてきた。
しかし、既存の手法は通常、スカラースコアやランキング報酬を最適化し、人間の好みの多次元的な性質を見越す。
本研究では,DPOの嗜好を2次元(セグメントとアスペクト)に拡張することを提案する。
本稿ではまず,HelpSteer-2Dという2次元監視データセットを紹介する。
セグメント次元については、応答を文に分割し、各セグメントにスコアを割り当てる。
アスペクト次元については,応答品質を規定するいくつかの基準を慎重に設計する。
2次元信号をフィードバックとして、2次元DPOフレームワークを開発し、その全体的目的をマルチセグメントとマルチアスペクトの目的に分解する。
2D-DPOはスカラーや1次元の選好を最適化する手法よりも優れた性能を示す。
関連論文リスト
- Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。
我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。
筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T07:52:00Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning [12.083649916114402]
本研究では,4次元にまたがるバランスの取れた要約を生成するために,多目的強化学習を提案する。
従来のROUGEベースの報酬が参照サマリーに依存しているのとは違って、QAベースの報酬モデルが人間の好みに合わせている。
提案手法は, 代表的な要約データセットのベースラインモデルと比較して, かなりの性能向上を達成した。
論文 参考訳(メタデータ) (2024-06-01T05:15:12Z) - Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。
DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。
提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2024-05-28T08:35:48Z) - Preference optimization of protein language models as a multi-objective
binder design paradigm [0.0]
命令の微調整と直接選好最適化に基づく多目的バインダー設計パラダイムを提案する。
提案したアライメント戦略により,ProtGPT2は特定の受容体に条件付けられたバインダーを効果的に設計し,薬物発生性基準を策定できることを示す。
論文 参考訳(メタデータ) (2024-03-07T03:36:03Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。
前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文 参考訳(メタデータ) (2020-05-19T05:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。