論文の概要: The Art of Asking: Multilingual Prompt Optimization for Synthetic Data
- arxiv url: http://arxiv.org/abs/2510.19806v1
- Date: Wed, 22 Oct 2025 17:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.24007
- Title: The Art of Asking: Multilingual Prompt Optimization for Synthetic Data
- Title(参考訳): The Art of Asking: Multilingual Prompt Optimization for Synthetic Data
- Authors: David Mora, Viraat Aryabumi, Wei-Yin Ko, Sara Hooker, Julia Kreutzer, Marzieh Fadaee,
- Abstract要約: 過度に見過ごされる空間-トレーニング分布を定義する入力は、多言語性能を改善するためのより強力なレバーである、と我々は主張する。
本稿では,自然性,文化適応,難易度向上のために,翻訳されたプロンプトを体系的に変換する,プロンプト空間最適化のための軽量なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.82527211292218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has become a cornerstone for scaling large language models, yet its multilingual use remains bottlenecked by translation-based prompts. This strategy inherits English-centric framing and style and neglects cultural dimensions, ultimately constraining model generalization. We argue that the overlooked prompt space-the very inputs that define training distributions-offers a more powerful lever for improving multilingual performance. We introduce a lightweight framework for prompt-space optimization, where translated prompts are systematically transformed for Naturalness, Cultural Adaptation, and Difficulty Enhancement. Using an off-the-shelf multilingual LLM, we apply these transformations to prompts for 12 languages spanning 7 families. Under identical data conditions, our approaches achieve substantial and consistent downstream improvements over the translation-only baseline: +4.7% on Global-MMLU accuracy, +2.4% on Flores XCometXL and +35.3% wins in preferences on mArenaHard. We establish prompt-space optimization as a simple yet powerful paradigm for building multilingual LLMs that are more robust, culturally grounded, and globally capable.
- Abstract(参考訳): 合成データは、大規模な言語モデルをスケールするための基盤となっているが、その多言語使用は、翻訳ベースのプロンプトによってボトルネックになっている。
この戦略は、英語中心のフレーミングとスタイルを継承し、最終的にモデルの一般化を制約する文化的な側面を無視する。
過度に見過ごされる空間-トレーニング分布を定義する入力は、多言語性能を改善するためのより強力なレバーである、と我々は主張する。
本稿では,自然性,文化適応,難易度向上のために,翻訳されたプロンプトを体系的に変換する,プロンプト空間最適化のための軽量なフレームワークを提案する。
既製の多言語LLMを用いて、7つのファミリーにまたがる12言語のプロンプトにこれらの変換を適用する。
同一のデータ条件下では、我々のアプローチは翻訳のみのベースラインに対して、実質的で一貫したダウンストリームの改善を実現している:+4.7%はGlobal-MMLUの精度、+2.4%はFlores XCometXL、+35.3%はmArenaHardの好みで勝利する。
我々は,より堅牢で文化的基盤があり,グローバルに機能する多言語LLMを構築するための,シンプルかつ強力なパラダイムとして,プロンプト空間最適化を確立する。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Franken-Adapter: Cross-Lingual Adaptation of LLMs by Embedding Surgery [31.516243610548635]
我々は,デコーダのみの大規模言語モデルに対するモジュール型言語適応アプローチであるtextitFranken-Adapter$を提示する。
提案手法は,対象言語用にカスタマイズされた語彙を作成し,多言語データへの組込みによる言語適応を行うことから始める。
最大27Bパラメータを持つ$ttGemma2$モデルの実験では、96言語で最大20%の改善が示され、識別的タスクと生成的タスクの両方にまたがっている。
論文 参考訳(メタデータ) (2025-02-12T00:38:11Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。