論文の概要: Cross-lingual Transfer of Reward Models in Multilingual Alignment
- arxiv url: http://arxiv.org/abs/2410.18027v2
- Date: Thu, 23 Jan 2025 13:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:04.816772
- Title: Cross-lingual Transfer of Reward Models in Multilingual Alignment
- Title(参考訳): 多言語アライメントにおけるリワードモデルの言語間移動
- Authors: Jiwoo Hong, Noah Lee, Rodrigo Martínez-Castaño, César Rodríguez, James Thorne,
- Abstract要約: 人間のフィードバックによる強化学習(RLHF)は、正確な報酬モデル(RM)から大きく恩恵を受けることが示されている。
近年の報酬モデリングスキームの研究は英語に傾き、多言語アライメントにおけるRLHFの適用性を制限している。
様々な言語、主に英語から訓練されたRMの言語間移動について検討する。
- 参考スコア(独自算出の注目度): 8.13893128694698
- License:
- Abstract: Reinforcement learning with human feedback (RLHF) is shown to largely benefit from precise reward models (RMs). However, recent studies in reward modeling schemes are skewed towards English, limiting the applicability of RLHF in multilingual alignments. In this work, we investigate the cross-lingual transfer of RMs trained in diverse languages, primarily from English. Our experimental results demonstrate the strong cross-lingual transfer of English RMs, exceeding target language RMs by 3~4% average increase in Multilingual RewardBench. Furthermore, we analyze the cross-lingual transfer of RMs through the representation shifts. Finally, we perform multilingual alignment to exemplify how cross-lingual transfer in RM propagates to enhanced multilingual instruction-following capability, along with extensive analyses on off-the-shelf RMs. We release the code, model, and data.
- Abstract(参考訳): 人間のフィードバックによる強化学習(RLHF)は、正確な報酬モデル(RM)から大きく恩恵を受けることが示されている。
しかし、近年の報酬モデリングスキームの研究は英語に傾き、多言語アライメントにおけるRLHFの適用性を制限している。
本研究では,様々な言語,主に英語から訓練されたRMの言語間移動について検討する。
実験の結果,マルチリンガル・リワードベンチでは,英語のRMが平均3~4%増加した。
さらに,表現シフトによるRMの言語間移動の解析を行った。
最後に, RMにおける多言語間移動が, 拡張された多言語命令追従能力にどのように伝播するかを示すための多言語アライメントと, 既製のRMの広範な解析を行う。
コード、モデル、データをリリースします。
関連論文リスト
- Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [71.12193680015622]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - XTransplant: A Probe into the Upper Bound Performance of Multilingual Capability and Culture Adaptability in LLMs via Mutual Cross-lingual Feed-forward Transplantation [49.69780199602105]
現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。
本稿では,言語間フィードフォワード移植による言語間遅延相互作用を探索するXTransplantという探索手法を提案する。
我々は,LLMの多言語能力と文化的適応性の両方が,XTransplantによって大幅に改善される可能性を持っていることを実証的に証明した。
論文 参考訳(メタデータ) (2024-12-17T09:05:30Z) - M-RewardBench: Evaluating Reward Models in Multilingual Settings [33.44919953094607]
我々は、M-RewardBenchというマルチリンガルRM評価ベンチマークを構築した。
M-RewardBenchは23の類型的に多様な言語に対する2.87kの好みのインスタンスで構成されている。
RMの性能が向上し,翻訳品質が向上したことを示す。
論文 参考訳(メタデータ) (2024-10-20T22:09:44Z) - Probing the Emergence of Cross-lingual Alignment during LLM Training [10.053333786023089]
多言語大言語モデル(LLM)は、ゼロショットの多言語間転送性能を著しく向上させる。
本研究では,LLMの事前学習において,このような言語間アライメントがどのように出現するかを検討する。
ニューロンの重なり合いと下流性能の相関関係を観察する。
論文 参考訳(メタデータ) (2024-06-19T05:31:59Z) - Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for
Cross-Lingual Machine Reading Comprehension [32.37236167127796]
X-STAは言語間機械読解のための新しいアプローチである。
我々は注意深い教師を利用して、ソース言語の回答スパンをターゲットの回答出力空間に微妙に転送する。
改良されたクロスアテンションブロックとしてグラディエント・ディサンタングルド・ナレッジ・シェアリング手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T07:20:37Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。