Fugu-MT 論文翻訳(概要): Post-edits Are Preferences Too

論文の概要: Post-edits Are Preferences Too

arxiv url: http://arxiv.org/abs/2410.02320v1
Date: Tue, 8 Oct 2024 08:09:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 04:00:02.722117
Title: Post-edits Are Preferences Too
Title（参考訳）: 編集後も好まれる
Authors: Nathaniel Berger, Stefan Riezler, Miriam Exel, Matthias Huck,
Abstract要約: 機械翻訳では、ペアの好みは5点評価のような他の人間のフィードバックよりも信頼性が低い。本研究は, 編集後仮説を上位出力ランクに引き上げるために, 編集後における教師付き微調整(SFT)により最良の結果が得られることを示す。
参考スコア（独自算出の注目度）: 11.351365352611658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Preference Optimization (PO) techniques are currently one of the state of the art techniques for fine-tuning large language models (LLMs) on pairwise preference feedback from human annotators. However, in machine translation, this sort of feedback can be difficult to solicit. Additionally, Kreutzer et al. (2018) have shown that, for machine translation, pairwise preferences are less reliable than other forms of human feedback, such as 5-point ratings. We examine post-edits to see if they can be a source of reliable human preferences by construction. In PO, a human annotator is shown sequences $s_1$ and $s_2$ and asked for a preference judgment, %$s_1 > s_2$; while for post-editing, editors \emph{create} $s_1$ and know that it should be better than $s_2$. We attempt to use these implicit preferences for PO and show that it helps the model move towards post-edit-like hypotheses and away from machine translation-like hypotheses. Furthermore, we show that best results are obtained by pre-training the model with supervised fine-tuning (SFT) on post-edits in order to promote post-edit-like hypotheses to the top output ranks.
Abstract（参考訳）: 優先度最適化(PO)技術は現在、人間のアノテータからのペアの好みフィードバックに基づいて、大規模言語モデル(LLM)を微調整するための最先端技術の1つである。しかし、機械翻訳では、このようなフィードバックを要請することは困難である。さらに、Kreutzer et al (2018) は、機械翻訳では、5点評価のような他の形式の人間のフィードバックよりもペアの好みが信頼性が低いことを示した。建設による信頼性の高い人間の嗜好の源となり得るかどうかを,ポストエジットで検証する。 POでは、人間のアノテータが$s_1$と$s_2$のシーケンスを表示し、選好判断のために%$s_1 > s_2$を要求される。我々はこれらのPOに対する暗黙の選好を使って、モデルが後述のような仮説に移行し、機械翻訳のような仮説から離れるのに役立つことを示す。さらに, 編集後仮説を上位出力ランクに昇格させるために, 教師付き微調整(SFT)による事前学習を行うことにより, 最良の結果が得られることを示した。

関連論文リスト

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences? [20.004349891563706]
事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。本稿では,最適達成可能な平均効用量と学習ポリシーの平均効用量との最悪のケース比について,アライメント手法の歪みを紹介する。
論文参考訳（メタデータ） (2025-05-29T17:59:20Z)
Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文参考訳（メタデータ） (2025-02-24T05:24:52Z)
Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。 CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-04T18:59:23Z)
SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment [16.230186347702737]
我々はSWEPO(Sultaneous Weighted Preference Optimization)を提案する。 SWEPOはクエリ毎に複数のレスポンスを導入し、平均的な報酬から最も逸脱したレスポンスを優先順位付けする。このような多重参照サンプリングはアライメントバイアスを低くし、真の許容応答分布から期待される偏差を$mathcalO(tfrac1sqrtk)$とすることを示した。
論文参考訳（メタデータ） (2024-12-05T21:50:22Z)
VPO: Leveraging the Number of Votes in Preference Optimization [5.200545764106177]
本稿では,ユーザの投票データを活用し,多様な主観的嗜好に適合する手法を提案する。我々は,議論を呼んでいる世代対と明らかな世代対を区別するために,双方の投票数を組み込んだVoteベースのPreference Optimizationフレームワークを開発した。
論文参考訳（メタデータ） (2024-10-30T10:39:34Z)
$f$-PO: Generalizing Preference Optimization with $f$-divergence Minimization [91.43730624072226]
$f$-POは、既存のアプローチを一般化し拡張する新しいフレームワークである。ベンチマークデータセットを用いて最先端言語モデルの実験を行う。
論文参考訳（メタデータ） (2024-10-29T02:11:45Z)
ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文参考訳（メタデータ） (2024-10-21T14:02:40Z)
Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both [6.102274021710727]
ダイレクトリワード蒸留とポリシー最適化(DRDO)は、知識蒸留に基づく選好アライメント手法である。 DRDOは、新規な嗜好確率の定式化から人間の嗜好を学習しながら、託宣によって割り当てられた報酬を直接模倣する。 Ultrafeedback と TL;DR データセットに関する実験結果から,DRDO を用いてトレーニングしたポリシーが従来の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-10-11T02:19:11Z)
General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。 DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
大きな言語モデル(LLM)を整列させる一般的な手法は、人間の好みを取得することに依存する。本稿では,命令応答対に対して協調的に好みを抽出する新たな軸を提案する。また,LLMのアライメントを大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文参考訳（メタデータ） (2024-02-16T10:55:38Z)
Efficient Machine Translation Corpus Generation [3.441021278275805]
提案手法は,言語学者が編集後実施するカスタムMT品質評価指標のオンライントレーニングに基づく。オンライン推定器は、後編集の悪い仮説を優先順位付けし、後編集なしで最良の仮説を自動クローズするために用いられる。
論文参考訳（メタデータ） (2023-06-20T18:46:47Z)
PePe: Personalized Post-editing Model utilizing User-generated Post-edits [28.749742163017544]
この課題に対処するために、パーソナライズされた後編集フレームワークを導入します。まず,ライブ機械翻訳システムからユーザの好みを記述した後編集データを収集する。次に、APEフレームワーク上で、識別器モジュールとユーザ固有のパラメータを組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2022-09-21T06:09:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。