Fugu-MT 論文翻訳(概要): 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision

論文の概要: 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision

arxiv url: http://arxiv.org/abs/2410.19720v1
Date: Fri, 25 Oct 2024 17:47:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.518188
Title: 2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision
Title（参考訳）: 2D-DPO:2次元スーパービジョンによるスケーリング直接選好最適化
Authors: Shilong Li, Yancheng He, Hui Huang, Xingyuan Bu, Jiaheng Liu, Hangyu Guo, Weixun Wang, Jihao Gu, Wenbo Su, Bo Zheng,
Abstract要約: 我々はDPOの嗜好を2次元(セグメントとアスペクト)に拡張することを提案する。我々は2D-DPOフレームワークを開発し、その全体的目的をマルチセグメントとマルチアスペクトの目的に分解する。
参考スコア（独自算出の注目度）: 28.742104593747033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Direct Preference Optimization (DPO) have significantly enhanced the alignment of Large Language Models (LLMs) with human preferences, owing to its simplicity and effectiveness. However, existing methods typically optimize a scalar score or ranking reward, thereby overlooking the multi-dimensional nature of human preferences. In this work, we propose to extend the preference of DPO to two dimensions: segments and aspects. We first introduce a 2D supervision dataset called HelpSteer-2D. For the segment dimension, we divide the response into sentences and assign scores to each segment. For the aspect dimension, we meticulously design several criteria covering the response quality rubrics. With the 2-dimensional signals as feedback, we develop a 2D-DPO framework, decomposing the overall objective into multi-segment and multi-aspect objectives. Extensive experiments on popular benchmarks demonstrate that 2D-DPO performs better than methods that optimize for scalar or 1-dimensional preferences.
Abstract（参考訳）: 直接選好最適化(DPO)の最近の進歩は、その単純さと有効性から、大規模言語モデル(LLM)と人間の選好との整合性を大幅に向上させてきた。しかし、既存の手法は通常、スカラースコアやランキング報酬を最適化し、人間の好みの多次元的な性質を見越す。本研究では,DPOの嗜好を2次元(セグメントとアスペクト)に拡張することを提案する。本稿ではまず,HelpSteer-2Dという2次元監視データセットを紹介する。セグメント次元については、応答を文に分割し、各セグメントにスコアを割り当てる。アスペクト次元については,応答品質を規定するいくつかの基準を慎重に設計する。 2次元信号をフィードバックとして、2次元DPOフレームワークを開発し、その全体的目的をマルチセグメントとマルチアスペクトの目的に分解する。 2D-DPOはスカラーや1次元の選好を最適化する手法よりも優れた性能を示す。

関連論文リスト

seg_3D_by_PC2D: Multi-View Projection for Domain Generalization and Adaptation in 3D Semantic Segmentation [2.4549463031236396]
3Dセマンティックセグメンテーションは、自動運転と道路インフラ分析において重要な役割を果たす。ドメイン一般化(DG)と教師なしドメイン適応(UDA)を両立させる新しい多視点プロジェクションフレームワークを提案する。 UDAでは最先端の成果が得られ、DGでは最先端の成果に近づき、特に大規模で静的なクラスでは大きな利益が得られます。
論文参考訳（メタデータ） (2025-05-21T14:08:42Z)
Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm [16.66633426354087]
DPO(Direct PreferenceOptimization)は、大規模言語モデルと人間の嗜好を整合させる強力な手法として登場した。オープンソースの選好データセットを用いたDPOの性能について検討する。 2D-DPOアルゴリズムにセグメントレベルスコアノイズロバスト性を組み込む手法を提案する。
論文参考訳（メタデータ） (2025-05-03T05:59:13Z)
DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution [24.460369372304807]
本稿では,大規模言語モデルやテキスト・トゥ・イメージタスクに適用したReal-ISRに人間の嗜好アライメントを導入する。そこで本研究では,DSPO(Direct Semantic Preference Optimization)を提案する。 DSPOは、プラグ・アンド・プレイのソリューションとして、ワンステップとマルチステップのSRフレームワークの両方で非常に効果的であることが証明されている。
論文参考訳（メタデータ） (2025-04-21T15:35:48Z)
2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization [3.674552982566341]
2D-Curri-DPOは、Prompt Complexity(PC)とPairwise Distinguishability(Pairwise Distinguishability)を共同でモデル化する2次元カリキュラムを採用した新しいフレームワークである。我々の手法はUltraFeedbackのような挑戦的なテストセットに対して最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-04-10T15:32:00Z)
Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。 DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文参考訳（メタデータ） (2025-02-20T08:27:00Z)
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization [75.55167570591063]
人間の好みを3D生成プロセスに統合する最適化ベースのフレームワークであるDreamDPOを提案する。 DreamDPOは、きめ細かい制御性を実現しながら、正確なポイントワイドの品質評価への依存を減らす。実験により、DreamDPOは競争力を発揮し、高品質で制御可能な3Dコンテンツを提供することが示された。
論文参考訳（メタデータ） (2025-02-05T11:03:08Z)
CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文参考訳（メタデータ） (2025-01-28T02:05:38Z)
Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文参考訳（メタデータ） (2024-10-23T16:42:56Z)
Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文参考訳（メタデータ） (2024-08-16T07:52:00Z)
mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文参考訳（メタデータ） (2024-06-17T17:59:58Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Multi-Dimensional Optimization for Text Summarization via Reinforcement Learning [12.083649916114402]
本研究では,4次元にまたがるバランスの取れた要約を生成するために,多目的強化学習を提案する。従来のROUGEベースの報酬が参照サマリーに依存しているのとは違って、QAベースの報酬モデルが人間の好みに合わせている。提案手法は, 代表的な要約データセットのベースラインモデルと比較して, かなりの性能向上を達成した。
論文参考訳（メタデータ） (2024-06-01T05:15:12Z)
Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives [0.5120567378386615]
大規模言語モデル(LLM)を協調するハイブリッドアプローチを提案する。 DPO の暗黙的な報酬分解に対する単純な拡張により、任意の補助報酬の集合を最大化するために LLM をチューニングできる。提案手法であるHybrid Preference Optimization (HPO) は,ユーザの好みと補助的な設計目的の両方に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2024-05-28T08:35:48Z)
Preference optimization of protein language models as a multi-objective binder design paradigm [0.0]
命令の微調整と直接選好最適化に基づく多目的バインダー設計パラダイムを提案する。提案したアライメント戦略により,ProtGPT2は特定の受容体に条件付けられたバインダーを効果的に設計し,薬物発生性基準を策定できることを示す。
論文参考訳（メタデータ） (2024-03-07T03:36:03Z)
PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文参考訳（メタデータ） (2023-08-31T17:57:17Z)
Bidirectional Looking with A Novel Double Exponential Moving Average to Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文参考訳（メタデータ） (2023-07-02T18:16:06Z)
Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文参考訳（メタデータ） (2021-12-24T02:43:58Z)
Two-Dimensional Semi-Nonnegative Matrix Factorization for Clustering [50.43424130281065]
TS-NMFと呼ばれる2次元(2次元)データに対する新しい半負行列分解法を提案する。前処理ステップで2次元データをベクトルに変換することで、データの空間情報に深刻なダメージを与える既存の手法の欠点を克服する。
論文参考訳（メタデータ） (2020-05-19T05:54:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。