論文の概要: Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment
- arxiv url: http://arxiv.org/abs/2404.12318v2
- Date: Mon, 14 Oct 2024 17:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:03:12.961308
- Title: Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment
- Title(参考訳): Reward Model Transfer for Zero-Shot Cross-Lingual Alignment (英語)
- Authors: Zhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami,
- Abstract要約: ゼロショット・クロスランガルアライメントのための簡単なアプローチを評価する。
言語間の整列モデルは、非整列モデルよりも人間の方が好まれる。
異なる言語報酬モデルでは、同言語報酬モデルよりも優れた整列モデルが得られることがある。
- 参考スコア(独自算出の注目度): 39.94156255629528
- License:
- Abstract: Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.
- Abstract(参考訳): ヒューマンアノテートされた嗜好データに基づく言語モデル(LM)は,実用的で高性能なLMベースのシステムを得るための重要なステップである。
しかし、多言語人間の嗜好データは大規模に取得することは困難であり、このフレームワークを多言語に拡張することは困難である。
本研究では、ゼロショット言語間アライメントのための簡単なアプローチとして、あるソース言語の好みデータに基づいて報酬モデルを訓練し、他のターゲット言語に直接適用する手法を評価する。
要約とオープンエンドダイアログ生成では,人間の評価を含む包括的評価設定において,この手法が一貫して成功していることを示す。
さらに、異なる言語報酬モデルでは、同言語報酬モデルよりも適切な整合モデルが得られる場合もあります。
また、教師付き微調整のための言語固有のデータがない場合のベストプラクティスも特定します。
関連論文リスト
- Investigating on RLHF methodology [0.0]
本稿では,人間の嗜好をシミュレートする選好モデル(Preference Model)の訓練の特徴と,最良の結果を達成する上で不可欠な方法や詳細について論じる。
また、強化学習(Reinforcement Learning)を用いて大規模言語モデルを微調整し、直面した課題と克服方法を説明する。
論文 参考訳(メタデータ) (2024-10-02T17:46:22Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Towards Zero-Shot Multilingual Synthetic Question and Answer Generation
for Cross-Lingual Reading Comprehension [20.570539023748424]
本稿では,多言語質問と解答ペアを大規模に生成する簡単な方法を提案する。
これらの合成サンプルは、ターゲット言語上の多言語QAモデルのゼロショット性能を改善するために使用できる。
論文 参考訳(メタデータ) (2020-10-22T19:59:37Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Model Selection for Cross-Lingual Transfer [15.197350103781739]
本稿では,モデル選択のための機械学習手法を提案する。
大規模な実験では、この手法は205言語にわたる英語の検証データよりも優れたモデルを選択する。
論文 参考訳(メタデータ) (2020-10-13T02:36:48Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。