論文の概要: Semi-Supervised Preference Optimization with Limited Feedback
- arxiv url: http://arxiv.org/abs/2511.00040v1
- Date: Tue, 28 Oct 2025 01:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.531601
- Title: Semi-Supervised Preference Optimization with Limited Feedback
- Title(参考訳): 限定フィードバックを用いた半教師付き参照最適化
- Authors: Seonggyun Lee, Sungjun Lim, Seojin Park, Soeun Cheon, Kyungwoo Song,
- Abstract要約: 本稿では,少数のペアワイズ選好ラベルと多数の未ペアサンプルから同時に学習することを目的とした,SSPO(Semi-Supervised Preference Optimization)の問題について検討する。
我々の重要な理論的貢献は、高い確率で勝利と負けの反応を分離できる最適報酬閾値の存在を証明している。
これらの擬似ラベルを利用することで、SSPOは大規模未ペアデータから潜伏した嗜好を効果的に蒸留し、取得コストを大幅に削減しつつ、人間のアライメントを維持する。
- 参考スコア(独自算出の注目度): 17.112054023380647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of preference optimization has made outstanding contributions to the alignment of language models with human preferences. Despite these advancements, recent methods still rely heavily on substantial paired (labeled) feedback data, leading to substantial resource expenditures. To address these challenges, we study the problem of Semi-Supervised Preference Optimization (SSPO) in which the idea is to learn from both a small number of pairwise preference labels and a large pool of unpaired samples simultaneously. Our key theoretical contribution proves the existence of an optimal reward threshold capable of separating winning and losing responses with high probability, which enables a principled pseudo-labeling of unpaired data. By leveraging these pseudo-labels, SSPO effectively distills latent preferences from large-scale unpaired data, thus maintaining human alignment while drastically reducing acquisition costs. Extensive experiments across datasets validate this remarkable data efficiency; for instance, SSPO trained with Llama3-8B-Instruct on just 1% of UltraFeedback consistently surpasses strong baselines trained on 10% of UltraFeedback.
- Abstract(参考訳): 嗜好最適化の分野は、言語モデルと人間の嗜好の整合性に顕著な貢献をしている。
これらの進歩にもかかわらず、最近の手法は依然として実質的な(ラベル付き)フィードバックデータに大きく依存しており、かなりのリソース支出につながっている。
これらの課題に対処するために,少数のペアワイズ選好ラベルと多数の未ペアサンプルから同時に学習することを目的とした,半監督選好最適化(SSPO)の課題について検討する。
我々の重要な理論的貢献は、高い確率で勝利と負けの反応を分離できる最適報酬閾値の存在を証明し、不対意なデータの原則的な擬似ラベルを可能にすることである。
これらの擬似ラベルを利用することで、SSPOは大規模未ペアデータから潜伏した嗜好を効果的に蒸留し、取得コストを大幅に削減しつつ、人間のアライメントを維持する。
例えば、UltraFeedbackの1%でLlama3-8B-InstructでトレーニングされたSSPOは、UltraFeedbackの10%でトレーニングされた強いベースラインを一貫して越えている。
関連論文リスト
- When Data is the Algorithm: A Systematic Study and Curation of Preference Optimization Datasets [29.94723846950853]
本稿では,オープンソースDPOコーパスの包括的データ中心分析について紹介する。
Magpieフレームワークを利用して、各サンプルにタスクカテゴリ、入力品質、好みの報酬をアノテートします。
これにより、データセット間の好みの質をスケーラブルできめ細かい検査が可能になり、報酬マージンの構造的および質的な相違が明らかになる。
論文 参考訳(メタデータ) (2025-11-14T06:12:16Z) - Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals [46.58760908162995]
本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
論文 参考訳(メタデータ) (2025-08-11T05:43:02Z) - Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data [30.407699113696076]
Supervised Fine-Tuning (SFT)は、医学的推論などの専門分野にLarge Language Models (LLM)を適用する上で重要な役割を担っている。
既存の手法では、知識と推論の複雑さによって定義されるサンプルの難易度に基づいてデータを選択することで、この問題を緩和しようとする。
本稿では,高拡散高影響クアドラントのサンプルを優先するデータ選択戦略であるDIQを提案する。
論文 参考訳(メタデータ) (2025-08-02T17:50:35Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。