論文の概要: A Bayesian Optimization Approach to Machine Translation Reranking
- arxiv url: http://arxiv.org/abs/2411.09694v1
- Date: Thu, 14 Nov 2024 18:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:24.643197
- Title: A Bayesian Optimization Approach to Machine Translation Reranking
- Title(参考訳): 機械翻訳におけるベイズ最適化手法
- Authors: Julius Cheng, Maike Züfle, Vilém Zouhar, Andreas Vlachos,
- Abstract要約: 候補リストのごく一部しか得点できない場合,トップスコアの候補を見つけることが可能である。
提案手法はベイズオプ(BayesOpt)において,まず,より安価でノイズの多いプロキシスコアモデルを用いて評価を行う。
- 参考スコア(独自算出の注目度): 9.933709517648479
- License:
- Abstract: Reranking a list of candidates from a machine translation system with an external scoring model and returning the highest-scoring candidate remains a simple and effective method for improving the overall output quality. Translation scoring models continue to grow in size, with the best models being comparable to generation models. Thus, reranking can add substantial computational cost to the translation pipeline. In this work, we pose reranking as a Bayesian optimization (BayesOpt) problem. By strategically selecting candidates to score based on a balance of exploration and exploitation, we show that it is possible to find top-scoring candidates when scoring only a fraction of the candidate list. For instance, our method achieves the same CometKiwi score using only 70 scoring evaluations compared a baseline system using 180. We present a multi-fidelity setting for BayesOpt, where the candidates are first scored with a cheaper but noisier proxy scoring model, which further improves the cost-performance tradeoff when using smaller but well-trained distilled proxy scorers.
- Abstract(参考訳): 外部スコアリングモデルを用いて機械翻訳システムから候補のリストをランク付けし、最高スコア付け候補を返却することは、全体的な出力品質を改善するための単純で効果的な方法である。
翻訳スコアリングモデルはサイズが拡大し続けており、最良のモデルは生成モデルに匹敵する。
したがって、再ランク付けは翻訳パイプラインにかなりの計算コストをもたらす可能性がある。
本研究ではベイズ最適化(BayesOpt)問題として再ランク付けする。
探索と搾取のバランスに基づいて、戦略的に採点候補を選択することにより、候補リストのごく一部しか採点できない場合に、上位の採点候補を見つけることができることを示す。
例えば,180点のベースラインシステムと比較すると,70点のスコア評価のみを用いて,同じCometKiwiスコアを達成できる。
本稿では,ベイズオプトのマルチ忠実度設定について述べる。まず,より安価でノイズの多いプロキシスコアリングモデルを用いて,より小型でよく訓練されたプロキシスコアラーを用いた場合のコスト対効果のトレードオフを改善する。
関連論文リスト
- Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。
対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-29T09:09:00Z) - How Much Annotation is Needed to Compare Summarization Models? [31.899027054430153]
ニュース要約の文脈で好むモデルを選択するのに必要なテストサンプルサイズについて検討する。
自動メトリクスはより小さなサンプルサイズで安定しているが、人間の好みに応じてモデルの勝利率を適度に予測できるのは一部の自動メトリクスのみである。
論文 参考訳(メタデータ) (2024-02-28T23:34:51Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - SimOAP: Improve Coherence and Consistency in Persona-based Dialogue
Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。
ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。
オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文 参考訳(メタデータ) (2023-05-18T17:23:00Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Exploring Dense Retrieval for Dialogue Response Selection [42.89426092886912]
本研究では,高密度検索モデルを用いて,大規模コーパスや非並列コーパスから直接適切な応答を選択する方法を提案する。
再ランク設定では、その単純さを考えると、その優位性はかなり驚きます。フルランク設定では、私たちは、そのような評価を最初に行うことを強調できます。
論文 参考訳(メタデータ) (2021-10-13T10:10:32Z) - Rethinking the Evaluation of Neural Machine Translation [25.036685025571927]
本稿では,探索誤りの影響を回避し,モデルランキングの観点からシステムレベルの評価を行う新しい評価プロトコルを提案する。
提案手法は,ビームサーチではなく,新たに提案した最上位k$デコードに基づく。
論文 参考訳(メタデータ) (2021-06-29T09:59:50Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。