論文の概要: Data-Efficient Domain Adaptation for LLM-based MT using Contrastive Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.27556v1
- Date: Fri, 31 Oct 2025 15:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.152852
- Title: Data-Efficient Domain Adaptation for LLM-based MT using Contrastive Preference Optimization
- Title(参考訳): コントラスト優先最適化を用いたLLMに基づくMTのためのデータ効率の良いドメイン適応
- Authors: Inacio Vieira, Antonio Castaldo, James O'Doherty, Sheila Castilho,
- Abstract要約: データ効率のよいドメイン適応のための後編集ワークフローをシミュレートするためのCPOの適用に関する実証的研究について述べる。
提案手法は,基本モデルの生の出力を「還元」翻訳として,人間に承認されたTMエントリを「ちょうせん」翻訳として扱うことにより,好みのペアを合成する。
英語とブラジルのポルトガル語と韓国語の実験では、わずか14.7kの選好ペアを使用することで、SFTで160k以上のサンプルでトレーニングされたモデルに近い性能を達成している。
- 参考スコア(独自算出の注目度): 0.8749675983608171
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLMs often require adaptation to domain-specific requirements, a process that can be expensive when relying solely on SFT. We present an empirical study on applying CPO to simulate a post-editing workflow for data-efficient domain adaptation. Our approach synthesizes preference pairs by treating the base model's own raw output as the 'rejected' translation and the human-approved TM entry as the 'chosen' one. This method provides direct feedback on the model's current knowledge, guiding it to align with domain-specific standards. Experiments in English-Brazilian Portuguese and English-Korean show that, by using just 14.7k preference pairs, the model achieves performance close to that of a model trained on 160k+ samples with SFT, demonstrating significant data efficiency. Although we showcase its effectiveness in MT, this application of CPO naturally generalizes to other generative tasks where a model's initial drafts can serve as a contrastive signal against a golden reference.
- Abstract(参考訳): LLMはドメイン固有の要件への適応を必要とすることが多い。
データ効率のよいドメイン適応のための後編集ワークフローをシミュレートするためのCPOの適用に関する実証的研究について述べる。
提案手法は,基本モデルの生出力を「拒絶」翻訳として,人間に承認されたTMエントリを「ちょうせん」翻訳として扱うことにより,嗜好ペアを合成する。
この方法では、モデルの現在の知識を直接フィードバックし、ドメイン固有の標準と整合するように導きます。
英語とブラジルのポルトガル語と韓国語の実験では、わずか14.7kの選好ペアを使用することで、SFTで160k以上のサンプルでトレーニングされたモデルに近い性能を達成し、データ効率が著しく向上した。
MTにおけるCPOの有効性を示すが、このCPOの適用は、モデルの初期ドラフトが黄金の参照に対して対照的な信号として機能する他の生成タスクに自然に一般化する。
関連論文リスト
- Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only [70.43369087819332]
Supervised Fine-tuning (SFT) は、大規模な言語モデルと人間のアノテーションによる実演を整合させる重要な方法として登場した。
本稿では, 自己回帰型PPOを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:02:13Z) - Toward Preference-aligned Large Language Models via Residual-based Model Steering [9.241565393225953]
本稿では,Residual Steering (PaLRS) を用いた大規模言語モデルの参照アライメントを提案する。
PaLRSは、Large Language Modelsの残留ストリームに符号化された好み信号を利用する。
各種小型オープンソースLLM上でのPaLRSの評価を行った。
論文 参考訳(メタデータ) (2025-09-28T17:16:16Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Compositional preference models for aligning LMs [15.036426712762147]
構成的選好モデル(CPM)は、一つのグローバルな選好評価をいくつかの解釈可能な特徴に分解するフレームワークである。
CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。