論文の概要: SimulPL: Aligning Human Preferences in Simultaneous Machine Translation
- arxiv url: http://arxiv.org/abs/2502.00634v1
- Date: Sun, 02 Feb 2025 02:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:41.857240
- Title: SimulPL: Aligning Human Preferences in Simultaneous Machine Translation
- Title(参考訳): SimulPL: 同時機械翻訳における人間の嗜好の調整
- Authors: Donglei Yu, Yang Zhao, Jie Zhu, Yangyifan Xu, Yu Zhou, Chengqing Zong,
- Abstract要約: 同時機械翻訳(SiMT)は、ストリーミングソース入力を受信しながら翻訳を生成する。
SiMTシナリオのオーディエンスは、正確な翻訳、より単純な構文、不要なレイテンシなど、明確な好みを持っている。
そこで我々は,SiMTタスクに適した選好学習フレームワークSimulPLを提案する。
- 参考スコア(独自算出の注目度): 29.369788075383923
- License:
- Abstract: Simultaneous Machine Translation (SiMT) generates translations while receiving streaming source inputs. This requires the SiMT model to learn a read/write policy, deciding when to translate and when to wait for more source input. Numerous linguistic studies indicate that audiences in SiMT scenarios have distinct preferences, such as accurate translations, simpler syntax, and no unnecessary latency. Aligning SiMT models with these human preferences is crucial to improve their performances. However, this issue still remains unexplored. Additionally, preference optimization for SiMT task is also challenging. Existing methods focus solely on optimizing the generated responses, ignoring human preferences related to latency and the optimization of read/write policy during the preference optimization phase. To address these challenges, we propose Simultaneous Preference Learning (SimulPL), a preference learning framework tailored for the SiMT task. In the SimulPL framework, we categorize SiMT human preferences into five aspects: \textbf{translation quality preference}, \textbf{monotonicity preference}, \textbf{key point preference}, \textbf{simplicity preference}, and \textbf{latency preference}. By leveraging the first four preferences, we construct human preference prompts to efficiently guide GPT-4/4o in generating preference data for the SiMT task. In the preference optimization phase, SimulPL integrates \textbf{latency preference} into the optimization objective and enables SiMT models to improve the read/write policy, thereby aligning with human preferences more effectively. Experimental results indicate that SimulPL exhibits better alignment with human preferences across all latency levels in Zh$\rightarrow$En, De$\rightarrow$En and En$\rightarrow$Zh SiMT tasks. Our data and code will be available at \url{https://github.com/EurekaForNLP/SimulPL}.
- Abstract(参考訳): 同時機械翻訳(SiMT)は、ストリーミングソース入力を受信しながら翻訳を生成する。
これにより、SiMTモデルは読み取り/書き込みポリシーを学習し、いつ翻訳するか、いつソース入力を待つかを決定する必要がある。
多くの言語学的研究により、SiMTシナリオのオーディエンスは、正確な翻訳、より単純な構文、不要なレイテンシなど、異なる好みを持っていることが示されている。
これらの人間の好みでSiMTモデルをアラインメントすることは、パフォーマンスを改善するために不可欠である。
しかし、この問題は未解決のままである。
さらに、SiMTタスクの優先度最適化も困難である。
既存の方法は、生成したレスポンスの最適化にのみ焦点をあて、レイテンシに関連する人間の好みを無視し、優先最適化フェーズにおける読み取り/書き込みポリシーの最適化に重点を置いている。
これらの課題に対処するために,SiMTタスクに適した選好学習フレームワークであるSimulPLを提案する。
In the SimulPL framework, we classified the SiMT human preferences into five aspects: \textbf{translation quality preference}, \textbf{monotonicity preference}, \textbf{key point preference}, \textbf{simplicity preference}, \textbf{latency preference}。
最初の4つの選好を利用して、人間の選好プロンプトを構築し、SiMTタスクの選好データを生成する際に、GPT-4/4oを効率的にガイドする。
選好最適化フェーズにおいて、SimulPLは最適化目標に \textbf{latency preference} を統合し、SiMTモデルによる読み書きポリシーの改善を可能にし、人間の選好をより効果的に調整する。
実験結果から,SimulPLはZh$\rightarrow$En,De$\rightarrow$En,En$\rightarrow$Zh SiMTタスクにおいて,すべてのレイテンシレベルにおいて,人間の好みとの整合性が向上していることが示唆された。
我々のデータとコードは \url{https://github.com/EurekaForNLP/SimulPL} で利用可能です。
関連論文リスト
- VLP: Vision-Language Preference Learning for Embodied Manipulation [29.7387976970634]
具体的操作タスクに対する好みフィードバックを提供するための視覚言語選好モデルを提案する。
選好モデルは言語に関連する特徴を抽出し、様々な下流タスクにおいて選好アノテータとして機能する。
提案手法は,未知のタスクや未知の言語命令に対して,精度の高い選好と一般化を提供し,ベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-02-17T15:32:14Z) - Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。
本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。
本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文 参考訳(メタデータ) (2025-01-22T14:15:46Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - PsFuture: A Pseudo-Future-based Zero-Shot Adaptive Policy for Simultaneous Machine Translation [8.1299957975257]
同時機械翻訳(SiMT)では、ストリーミングソーストークンが使用されるため、ターゲットトークンをリアルタイムで生成する必要がある。
我々は、SiMTのための最初のゼロショット適応型リード/ライトポリシーであるPsFutureを提案する。
我々は、SiMTアプリケーションのためのオフライン翻訳モデルを調整するために、新しいトレーニング戦略であるPrefix-to-Full(P2F)を導入する。
論文 参考訳(メタデータ) (2024-10-05T08:06:33Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Self-Modifying State Modeling for Simultaneous Machine Translation [25.11963998838586]
同時機械翻訳(SiMT)は、ストリームソース入力を受信しながらターゲット出力を生成する。
既存のSiMT手法は、様々な意思決定経路を探索することでポリシーを学習し、固有の制約に直面している。
我々は、SiMTタスクのための新しいトレーニングパラダイムであるtextbfSelf-textbfModifying textbfState textbfModeling (SM$2$)を提案する。
論文 参考訳(メタデータ) (2024-06-04T11:57:58Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。