論文の概要: REAL: Response Embedding-based Alignment for LLMs
- arxiv url: http://arxiv.org/abs/2409.17169v4
- Date: Wed, 04 Jun 2025 15:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.733867
- Title: REAL: Response Embedding-based Alignment for LLMs
- Title(参考訳): REAL: LLMに対する応答埋め込みに基づくアライメント
- Authors: Honggen Zhang, Xufeng Zhao, Igor Molybog, June Zhang,
- Abstract要約: よりあいまいな選好ペアの獲得に焦点を当てた高品質なトレーニングデータセットを構築するための戦略を提案する。
実験により、異なる応答対を選択することで、LSMの直列化が促進されることが示された。
異なるペアにフォーカスすることでラベルエラーを低減し,LLMアライメント効率を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 1.9513983244114355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning large language models (LLMs) to human preferences is a crucial step in building helpful and safe AI tools, which usually involve training on supervised datasets. Popular algorithms such as Direct Preference Optimization (DPO) rely on pairs of AI-generated responses ranked according to human annotation. The response pair annotation process might bring human bias. Building a correct preference dataset is the costly part of the alignment pipeline. To improve annotation efficiency and quality in the LLMs alignment, we propose REAL: Response Embedding-based Alignment for LLMs, a strategy for constructing a high-quality training dataset that focuses on acquiring the less ambiguous preference pairs for labeling out of a set of response candidates. Our selection process is based on the similarity of embedding responses independently of prompts, which guarantees the selection process in an off-policy setting, avoiding adaptively measuring the similarity during the training. Experimental results on real-world dataset SHP2 and synthetic HH-RLHF benchmarks indicate that choosing dissimilar response pairs enhances the direct alignment of LLMs while reducing inherited labeling errors. The model aligned with dissimilar response pairs obtained a better margin and win rate on the dialogue task. Our findings suggest that focusing on distinct pairs can reduce the label error and improve LLM alignment efficiency, saving up to $65\%$ of annotators' work.
- Abstract(参考訳): 大規模な言語モデル(LLM)を人間の好みに合わせることは、補助的で安全なAIツールを構築するための重要なステップである。
DPO(Direct Preference Optimization)のような一般的なアルゴリズムは、人間のアノテーションに従ってランク付けされたAI生成応答のペアに依存している。
応答ペアアノテーションプロセスは、人間のバイアスをもたらす可能性がある。
適切な選好データセットを構築することは、アライメントパイプラインのコストのかかる部分です。
LLMのアライメントにおけるアノテーション効率と品質を改善するために,REALを提案する: 応答埋め込みに基づくLCMのアライメント。
選択プロセスはプロンプトと独立して組込み応答の類似性に基づいており、これは非政治的な環境での選択プロセスを保証し、訓練中の類似度を適応的に測定することを避ける。
実世界のデータセットSHP2と合成HH-RLHFベンチマークの実験結果から、異なる応答ペアを選択することで、LLMの直接アライメントが向上し、ラベリングエラーの低減が図られた。
模擬応答対に整合したモデルでは,対話タスクのマージンが向上し,勝利率が向上した。
その結果,異なるペアにフォーカスすることでラベルの誤りを低減し,LCMアライメント効率を向上し,アノテータの作業の最大6,5\%を節約できることが示唆された。
関連論文リスト
- A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。
本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。
HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-18T07:04:16Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - OPTune: Efficient Online Preference Tuning [107.44836901099]
オンライン嗜好調整(OPTune)のためのより効率的なデータ探索手法を提案する。
OPTuneは、オン・プライオリティアライメントのための情報応答を動的にサンプリングする。
評価では, 効率的なデータ探索戦略により, OPTune の LLM は 1.27-1.56 倍高速なトレーニング速度を達成している。
論文 参考訳(メタデータ) (2024-06-11T18:55:04Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Direct Large Language Model Alignment Through Self-Rewarding Contrastive Prompt Distillation [45.21355506181213]
コントラッシブ・プロンプト・ペア下での応答対の出力確率を用いて応答選好を評価する手法を提案する。
そこで本研究では,DLMA(Direct Large Model Alignment)の自動アライメント手法を提案する。
実験段階において,本手法は人手による好みデータに頼ることなく,textttRLHF法を超えることができる。
論文 参考訳(メタデータ) (2024-02-19T07:46:40Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Preference Ranking Optimization for Human Alignment [90.6952059194946]
大規模言語モデル(LLM)は、しばしば誤解を招くコンテンツを含み、それらを人間の価値と整合させる必要性を強調している。
人間のフィードバックからの強化学習(RLHF)が、このアライメントを達成するために採用されている。
我々は、人間のアライメントのための微調整LDMのための効率的なSFTアルゴリズムとして、優先度ランク付け最適化(PRO)を提案する。
論文 参考訳(メタデータ) (2023-06-30T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。