論文の概要: CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences
- arxiv url: http://arxiv.org/abs/2511.07691v1
- Date: Wed, 12 Nov 2025 01:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.430104
- Title: CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences
- Title(参考訳): CAPO:多言語選好のための信頼度を考慮した選好最適化学習
- Authors: Rhitabrat Pokharel, Yufei Tao, Ameeta Agrawal,
- Abstract要約: 優先順位最適化は、大きな言語モデルと人間の好みを合わせるのに使われ、通常はランク付けされた応答ペアを微調整する。
本稿では,DPO の優先ペアの固定処理を動的損失スケーリング機構に置き換える CAPO (Confidence-Aware Preference Optimization) を提案する。
CAPOは、多言語テキストでよく見られるノイズや低マージンの比較に頑健さを増す。
- 参考スコア(独自算出の注目度): 4.460583138505673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference optimization is a critical post-training technique used to align large language models (LLMs) with human preferences, typically by fine-tuning on ranked response pairs. While methods like Direct Preference Optimization (DPO) have proven effective in English, they often fail to generalize robustly to multilingual settings. We propose a simple yet effective alternative, Confidence-Aware Preference Optimization (CAPO), which replaces DPO's fixed treatment of preference pairs with a dynamic loss scaling mechanism based on a relative reward. By modulating the learning signal according to the confidence in each preference pair, CAPO enhances robustness to noisy or low-margin comparisons, typically encountered in multilingual text. Empirically, CAPO outperforms existing preference optimization baselines by at least 16% in reward accuracy, and improves alignment by widening the gap between preferred and dispreferred responses across languages.
- Abstract(参考訳): 優先度最適化は、大規模言語モデル(LLM)を人間の好みに合わせるために使われる重要なポストトレーニング手法であり、典型的にはランク付けされた応答ペアを微調整する。
直接選好最適化(DPO)のような手法は英語で有効であることが証明されているが、多言語設定に頑健に一般化することができないことが多い。
本稿では,DPOの優先ペアの固定処理を,相対的な報酬に基づく動的損失スケーリング機構に置き換える,シンプルで効果的な方法であるCAPO(Confidence-Aware Preference Optimization)を提案する。
各選好ペアの信頼度に応じて学習信号を変調することにより、CAPOは多言語テキストで典型的に見られるノイズや低マージンの比較に頑健性を高める。
実証的に、CAPOは既存の優先最適化ベースラインを少なくとも16%の報酬精度で上回り、言語間での好ましくない応答と好ましくない応答のギャップを広げることでアライメントを改善する。
関連論文リスト
- ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning [14.034412856423529]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。
本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-05-25T11:33:08Z) - Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization [17.801062522027266]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なフレームワークとして登場した。
既存の方法は応答における全てのトークンに等しい重要性を割り当て、人間はより意味のある部分に焦点を当てる。
直接textbfPreference textbfOptimization (OTPO) を強化するための textbfOptimal textbfTransport を用いたトークン重み付け方式を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:44:15Z) - Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。
MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。
理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。