論文の概要: Beyond Single-Reward: Multi-Pair, Multi-Perspective Preference Optimization for Machine Translation
- arxiv url: http://arxiv.org/abs/2510.13434v1
- Date: Wed, 15 Oct 2025 11:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.646423
- Title: Beyond Single-Reward: Multi-Pair, Multi-Perspective Preference Optimization for Machine Translation
- Title(参考訳): シングルリワードを超えて:機械翻訳のためのマルチペア・マルチパースペクティブな選好最適化
- Authors: Hao Wang, Linlong Xu, Heng Liu, Yangyang Liu, Xiaohu Zhao, Bo Zeng, Liangying Shao, Longyue Wang, Weihua Luo, Kaifu Zhang,
- Abstract要約: M2PO: マルチペア, マルチパースペクティブ・パラメータ最適化について紹介する。
我々のフレームワークは、より堅牢な信号を生成するマルチパースペクティブ報酬エンジンを統合している。
挑戦的なWMT21-22ベンチマークでは、M2POは既存の選好最適化手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 44.04325848740683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) is a powerful paradigm for aligning Large Language Models (LLMs) to human preferences in Machine Translation (MT), but current methods are hindered by two fundamental challenges: (1) flawed reward signals from Quality Estimation (QE) models that overlook critical errors like translation hallucination, and (2) inefficient data utilization that discards valuable learning signals by selecting only a single win-loss pair. To address these limitations, we introduce M^2PO: Multi-Pair, Multi-Perspective Preference Optimization. Our framework integrates a multi-perspective reward engine that creates a more robust signal by combining two key viewpoints: a new hallucination penalty for factuality, and an innovative dynamic quality score that adaptively fuses external evaluations with the model's own evolving judgment. This is synergistically paired with a multi-pair construction strategy that systematically creates a comprehensive set of preference pairs from the entire pool of translation candidates. This synergistic approach ensures the model learns from a richer spectrum of quality trade-offs, leading to more robust and faithful translations. On challenging WMT21-22 benchmarks, M^2PO substantially outperforms existing preference optimization methods and demonstrates highly competitive performance against leading proprietary LLMs.
- Abstract(参考訳): 直接選好最適化(DPO)は,機械翻訳(MT)における人為的嗜好に大言語モデル(LLM)を整合させる強力なパラダイムであるが,現状の手法は,(1)翻訳幻覚のような重要なエラーを無視する品質評価(QE)モデルからの欠点のある報奨信号と,(2)1つのウィンロスペアだけを選択して価値ある学習信号を破棄する非効率なデータ利用の2つの根本的な課題によって妨げられている。
これらの制約に対処するため、M^2PO: Multi-Pair, Multi-Perspective Preference Optimizationを導入する。
提案フレームワークは,現実性に対する新たな幻覚的ペナルティと,モデル自体の進化的判断と外部評価を適応的に融合させる革新的動的品質スコアという,より堅牢な信号を生成するマルチパースペクティブ報酬エンジンを統合している。
これは、翻訳候補のプール全体から包括的な選好ペアのセットを体系的に生成するマルチペア構成戦略と相乗的に組み合わせられる。
このシナジスティックなアプローチは、モデルがよりリッチな品質トレードオフから学習し、より堅牢で忠実な翻訳につながることを保証します。
挑戦的なWMT21-22ベンチマークでは、M^2POは既存の選好最適化手法を大幅に上回り、主要なプロプライエタリなLLMに対して高い競争性能を示す。
関連論文リスト
- Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - M3PO: Multimodal-Model-Guided Preference Optimization for Visual Instruction Following [4.119014132092875]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダル命令の潜在能力を秘めている。
M3POはLVLMの視覚的命令の処理能力を高めるために設計された,新しい,データ効率のよい手法である。
M3POは、LVLM生成候補の多様なプールから、最も「学習価値の高い」選好サンプルペアをインテリジェントに選択する。
論文 参考訳(メタデータ) (2025-08-17T18:07:55Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。