論文の概要: The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights
- arxiv url: http://arxiv.org/abs/2405.01345v2
- Date: Sat, 29 Jun 2024 15:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:09:19.928447
- Title: The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights
- Title(参考訳): 多言語推論における質問文翻訳指導の力 : スコープの拡大と洞察の深化
- Authors: Wenhao Zhu, Shujian Huang, Fei Yuan, Cheng Chen, Jiajun Chen, Alexandra Birch,
- Abstract要約: 本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。
実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。
その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
- 参考スコア(独自算出の注目度): 108.40766216456413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bridging the significant gap between large language model's English and non-English performance presents a great challenge. While some previous studies attempt to mitigate this gap with translated training data, the recently proposed question alignment approach leverages the model's English expertise to improve multilingual performance with minimum usage of expensive, error-prone translation. In this paper, we explore how broadly this method can be applied by examining its effects in reasoning with executable code and reasoning with common sense. We also explore how to apply this approach efficiently to extremely large language models using proxy-tuning. Experiment results on multilingual reasoning benchmarks mGSM, mSVAMP and xCSQA demonstrate that the question alignment approach can be used to boost multilingual performance across diverse reasoning scenarios, model families, and sizes. For instance, when applied to the LLaMA2 models, our method brings an average accuracy improvements of 12.2% on mGSM even with the 70B model. To understand the mechanism of its success, we analyze representation space, chain-of-thought and translation data scales, which reveals how question translation training strengthens language alignment within LLMs and shapes their working patterns.
- Abstract(参考訳): 大きな言語モデルの英語と非英語のパフォーマンスの間に大きなギャップを埋めることは大きな課題である。
以前の研究では、このギャップを翻訳トレーニングデータで軽減しようとする試みもあったが、最近提案された質問アライメントアプローチでは、このモデルの英語の専門知識を活用して、高価でエラーを起こしやすい翻訳を最小限に使用することで、多言語のパフォーマンスを向上させる。
本稿では,この手法が,実行可能コードによる推論や常識による推論において,その効果を検証することによって,いかに広範に適用できるかを考察する。
また、プロキシチューニングを用いて、非常に大きな言語モデルに対して、このアプローチを効率的に適用する方法についても検討する。
mGSM, mSVAMP, xCSQAの多言語推論ベンチマーク実験の結果, 多様な推論シナリオ, モデルファミリ, サイズをまたいだ多言語性能向上に, 問合せアライメントアプローチが有効であることが示された。
例えば、LLaMA2モデルに適用すると、70BモデルであってもmGSMの平均精度は12.2%向上する。
その成功のメカニズムを理解するために、我々は表現空間、チェーン・オブ・シンク、翻訳データスケールを分析し、質問翻訳訓練がLLM内の言語アライメントを強化し、その動作パターンを形作る方法を明らかにする。
関連論文リスト
- CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Empowering Cross-lingual Abilities of Instruction-tuned Large Language
Models by Translation-following demonstrations [0.8133739801185272]
We propose CrossAlpaca, a It-LLM with cross-lingual instruction-following and translation-following demonstrations。
我々のモデルは、6つの異なる言語でテストされ、単言語データで調整された It-LLM よりも優れています。
論文 参考訳(メタデータ) (2023-08-27T19:22:12Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Contrastive Learning for Many-to-many Multilingual Neural Machine
Translation [16.59039088482523]
既存の多言語機械翻訳アプローチは主に英語中心の方向に焦点を当てている。
我々は、英語以外の方向の質を重視した多言語翻訳システムの構築を目指している。
論文 参考訳(メタデータ) (2021-05-20T03:59:45Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。