論文の概要: Self-supervised Attribute-aware Dynamic Preference Ranking Alignment
- arxiv url: http://arxiv.org/abs/2502.12189v1
- Date: Sat, 15 Feb 2025 08:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:54.168602
- Title: Self-supervised Attribute-aware Dynamic Preference Ranking Alignment
- Title(参考訳): 自己教師型属性認識型動的選好ランク付けアライメント
- Authors: Hongyu Yang, Qi Zhao, Zhenhua hu, Rui Li,
- Abstract要約: textbfSelf-supervised textbfAttribute-aware textbfdynamic textbfpreference textbf ranking, called shortname。
APDF(Attribute-Perceptual Distance Factors)に基づく応答の選好差を定量化し、リストのアライメント順序を動的に決定する。
きめ細かい選好差分学習を実現し、最適なものと正確に一致させることができる。
- 参考スコア(独自算出の注目度): 21.572914948747748
- License:
- Abstract: Reinforcement Learning from Human Feedback and its variants excel in aligning with human intentions to generate helpful, harmless, and honest responses. However, most of them rely on costly human-annotated pairwise comparisons for supervised alignment, which is not suitable for list-level scenarios, such as community question answering. Additionally, human preferences are influenced by multiple intrinsic factors in responses, leading to decision-making inconsistencies. Therefore, we propose \textbf{Se}lf-supervised \textbf{A}ttribute-aware \textbf{d}ynamic \textbf{p}reference \textbf{ra}nking, called \shortname. \ It quantifies preference differences between responses based on Attribute-Perceptual Distance Factors (APDF) and dynamically determines the list-wise alignment order. Furthermore, it achieves fine-grained preference difference learning and enables precise alignment with the optimal one. We specifically constructed a challenging code preference dataset named StaCoCoQA, and introduced more cost-effective and scalable preference evaluation metrics: PrefHit and PrefRecall. Extensive experimental results show that SeAdpra exhibits superior performance and generalizability on both StaCoCoQA and preference datasets from eight popular domains.
- Abstract(参考訳): 人間のフィードバックからの強化学習とその変種は、有益で無害で正直な反応を生成するために、人間の意図と一致して優れている。
しかし、そのほとんどは、教師付きアライメントのための人手によるペアワイズ比較に頼っているため、コミュニティの質問応答のようなリストレベルのシナリオには適さない。
さらに、人間の嗜好は反応における複数の本質的な要因に影響され、意思決定の不整合につながる。
そこで,本稿では,textbf{Se}lf-supervised \textbf{A}ttribute-aware \textbf{d}ynamic \textbf{p}reference \textbf{ra}nkingを「shortname」と呼ぶ。
属性-知覚的距離因子(APDF)に基づく応答間の選好差を定量化し、リストのアライメント順序を動的に決定する。
さらに、きめ細かい選好差分学習を実現し、最適なものと正確に一致させることができる。
私たちは特に、StaCoCoQAという名前の挑戦的なコード優先データセットを構築し、よりコスト効率が高くスケーラブルな選好評価指標(PrefHitとPrefRecall)を導入しました。
実験の結果,SeAdpraはStaCoCoQAと8つの人気ドメインの嗜好データセットの両方において,優れた性能と一般化性を示すことがわかった。
関連論文リスト
- A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment [16.230186347702737]
我々は、DPO(Direct Preference Optimization)の新たな拡張であるSWEPO(Sultaneous Weighted Preference Optimization)を導入する。
SWEPOは、クエリ毎に複数の動的に選択された正と負の応答に対応する。
複数の選好を同時に考えると、アライメントバイアスが減少し、アライメントがより堅牢になることを示す。
UltraFeedbackデータセットの実証検証は、SWEPOを最先端として確立し、下流評価において優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Ordinal Preference Optimization: Aligning Human Preferences via NDCG [28.745322441961438]
我々は、NDCGを異なる代理損失で近似することで、エンドツーエンドの選好最適化アルゴリズムを開発する。
OPOは、AlpacaEvalのような評価セットや一般的なベンチマークにおいて、既存のペアワイズおよびリストワイズアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - AlignDiff: Aligning Diverse Human Preferences via Behavior-Customisable
Diffusion Model [69.12623428463573]
AlignDiffは、人間の好みを定量化し、抽象性をカバーし、拡散計画をガイドする新しいフレームワークである。
ユーザがカスタマイズした動作と正確に一致し、効率的に切り替えることができます。
選好マッチング,スイッチング,カバーにおいて,他のベースラインに比べて優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-03T13:53:08Z) - SetRank: A Setwise Bayesian Approach for Collaborative Ranking from
Implicit Feedback [50.13745601531148]
提案手法は,提案システムにおける暗黙的フィードバックの特性に対応するために,協調的ランキング(SeetRank)のためのセッティングワイドベイズ的手法を提案する。
具体的には、SetRankは、新しい設定された選好比較の後方確率を最大化することを目的としている。
また、SetRankの理論解析により、余剰リスクの境界が$sqrtM/N$に比例できることを示す。
論文 参考訳(メタデータ) (2020-02-23T06:40:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。