論文の概要: When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger
- arxiv url: http://arxiv.org/abs/2603.04968v1
- Date: Thu, 05 Mar 2026 09:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.153794
- Title: When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger
- Title(参考訳): LLMが信頼に耳を傾けると、優先順位アライメントはより強くなる
- Authors: Amirabbas Afzali, Myeongho Jeon, Maria Brbic,
- Abstract要約: 優先順位アライメントは、人間の価値に大規模な言語モデルを適用するための重要なステップである。
本稿では,LLMの信頼性を弱め,トレーニングサンプルを再重み付けするフレームワークである信頼度重み付き優先度最適化(CW-PO)を提案する。
人間のアノテーションの20%しか持たないCW-POは、標準のDPOの下で100%アノテーションでトレーニングされたモデルよりも優れています。
- 参考スコア(独自算出の注目度): 12.541521203916867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference alignment is an essential step in adapting large language models (LLMs) to human values, but existing approaches typically depend on costly human annotations or large-scale API-based models. We explore whether a weak LLM can instead act as an effective annotator. We surprisingly find that selecting only a subset of a weak LLM's highly confident samples leads to substantially better performance than using full human annotations. Building on this insight, we propose Confidence-Weighted Preference Optimization (CW-PO), a general framework that re-weights training samples by a weak LLM's confidence and can be applied across different preference optimization objectives. Notably, the model aligned by CW-PO with just 20% of human annotations outperforms the model trained with 100% of annotations under standard DPO. These results suggest that weak LLMs, when paired with confidence weighting, can dramatically reduce the cost of preference alignment while even outperforming methods trained on fully human-labeled data.
- Abstract(参考訳): 大規模な言語モデル(LLM)を人間の価値に適応させる上で、優先順位調整は必須のステップですが、既存のアプローチは一般的に、コストのかかる人間のアノテーションや大規模なAPIベースのモデルに依存します。
弱いLDMが有効なアノテータとして機能するかどうかを検討する。
弱いLLMの高信頼サンプルのサブセットだけを選択すると、完全な人間のアノテーションを使うよりもパフォーマンスが大幅に向上することがわかった。
この知見に基づいて,LLMの信頼性の弱いトレーニングサンプルを再重み付けする一般的なフレームワークである信頼度重み最適化(CW-PO)を提案する。
特に、CW-POで整列されたモデルと人間のアノテーションの20%は、標準のDPOの下で100%アノテーションで訓練されたモデルよりも優れています。
これらの結果から,信頼性重み付けと組み合わせた弱いLDMは,完全なラベル付きデータでトレーニングした手法よりも高い性能を保ちながら,嗜好調整のコストを劇的に低減できる可能性が示唆された。
関連論文リスト
- Selective LLM-Guided Regularization for Enhancing Recommendation Models [7.406718588794206]
トレーニング可能なゲーティング機構がユーザ履歴の長さやアイテムの人気,モデルの不確実性によってLCMの信頼性が予測される場合にのみ,LCMに基づくペアワイズランキング管理を活性化する,モデルに依存しない効率的なフレームワークを提案する。
複数のデータセットにまたがる実験により、この選択的戦略は全体的な精度を一貫して改善し、コールドスタートとロングテールレジームにおいてかなりの利益をもたらし、世界的な蒸留ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-12-25T06:30:00Z) - IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。
この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2025-02-22T10:59:11Z) - Improve LLM-as-a-Judge Ability as a General Ability [40.288846894608966]
大規模言語モデル(LLM)は様々なシナリオで応答を評価し、正確な選好信号を提供する。
近年の研究では、LLMをジェネレーティブ・ジャッジ(ジェネレーティブ・ジャッジ)として訓練する多くの方法が提起されているが、そのほとんどはデータ消費か精度の欠如である。
本研究では、教師付き微調整(SFT)ウォームアップと直接選好最適化(DPO)強化を含む2段階の訓練手法を実装した。
論文 参考訳(メタデータ) (2025-02-17T11:28:43Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。
この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T09:48:53Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。