論文の概要: The Art of Asking: Multilingual Prompt Optimization for Synthetic Data
- arxiv url: http://arxiv.org/abs/2510.19806v1
- Date: Wed, 22 Oct 2025 17:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.24007
- Title: The Art of Asking: Multilingual Prompt Optimization for Synthetic Data
- Title(参考訳): The Art of Asking: Multilingual Prompt Optimization for Synthetic Data
- Authors: David Mora, Viraat Aryabumi, Wei-Yin Ko, Sara Hooker, Julia Kreutzer, Marzieh Fadaee,
- Abstract要約: 過度に見過ごされる空間-トレーニング分布を定義する入力は、多言語性能を改善するためのより強力なレバーである、と我々は主張する。
本稿では,自然性,文化適応,難易度向上のために,翻訳されたプロンプトを体系的に変換する,プロンプト空間最適化のための軽量なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.82527211292218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has become a cornerstone for scaling large language models, yet its multilingual use remains bottlenecked by translation-based prompts. This strategy inherits English-centric framing and style and neglects cultural dimensions, ultimately constraining model generalization. We argue that the overlooked prompt space-the very inputs that define training distributions-offers a more powerful lever for improving multilingual performance. We introduce a lightweight framework for prompt-space optimization, where translated prompts are systematically transformed for Naturalness, Cultural Adaptation, and Difficulty Enhancement. Using an off-the-shelf multilingual LLM, we apply these transformations to prompts for 12 languages spanning 7 families. Under identical data conditions, our approaches achieve substantial and consistent downstream improvements over the translation-only baseline: +4.7% on Global-MMLU accuracy, +2.4% on Flores XCometXL and +35.3% wins in preferences on mArenaHard. We establish prompt-space optimization as a simple yet powerful paradigm for building multilingual LLMs that are more robust, culturally grounded, and globally capable.
- Abstract(参考訳): 合成データは、大規模な言語モデルをスケールするための基盤となっているが、その多言語使用は、翻訳ベースのプロンプトによってボトルネックになっている。
この戦略は、英語中心のフレーミングとスタイルを継承し、最終的にモデルの一般化を制約する文化的な側面を無視する。
過度に見過ごされる空間-トレーニング分布を定義する入力は、多言語性能を改善するためのより強力なレバーである、と我々は主張する。
本稿では,自然性,文化適応,難易度向上のために,翻訳されたプロンプトを体系的に変換する,プロンプト空間最適化のための軽量なフレームワークを提案する。
既製の多言語LLMを用いて、7つのファミリーにまたがる12言語のプロンプトにこれらの変換を適用する。
同一のデータ条件下では、我々のアプローチは翻訳のみのベースラインに対して、実質的で一貫したダウンストリームの改善を実現している:+4.7%はGlobal-MMLUの精度、+2.4%はFlores XCometXL、+35.3%はmArenaHardの好みで勝利する。
我々は,より堅牢で文化的基盤があり,グローバルに機能する多言語LLMを構築するための,シンプルかつ強力なパラダイムとして,プロンプト空間最適化を確立する。
関連論文リスト
- Cross-Lingual Prompt Steerability: Towards Accurate and Robust LLM Behavior across Languages [61.18573330164572]
システムプロンプトは、推論時に大きな言語モデル(LLM)を条件付けするための軽量で強力なメカニズムを提供する。
本稿では, 異なるシステムが, 正確な, 頑健な言語間行動に対して, ステアモデルをどのように促すかを包括的に検討する。
論文 参考訳(メタデータ) (2025-12-02T14:54:54Z) - Exploring Polyglot Harmony: On Multilingual Data Allocation for Large Language Models Pretraining [16.590296049892576]
本稿では,多言語データアロケーションを体系的に最適化する新しいフレームワークであるClimbを紹介する。
Climbの中核となるのは、言語間の相互作用を意識した言語比率を導入し、言語間の依存関係をキャプチャすることで、各言語の効果的なアロケーションを明示的に定量化している。
大規模な実験により、Climbは様々な多言語間相互作用を正確に測定できることを確認した。
論文 参考訳(メタデータ) (2025-09-19T03:34:34Z) - Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Franken-Adapter: Cross-Lingual Adaptation of LLMs by Embedding Surgery [31.516243610548635]
我々は,デコーダのみの大規模言語モデルに対するモジュール型言語適応アプローチであるtextitFranken-Adapter$を提示する。
提案手法は,対象言語用にカスタマイズされた語彙を作成し,多言語データへの組込みによる言語適応を行うことから始める。
最大27Bパラメータを持つ$ttGemma2$モデルの実験では、96言語で最大20%の改善が示され、識別的タスクと生成的タスクの両方にまたがっている。
論文 参考訳(メタデータ) (2025-02-12T00:38:11Z) - RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs [13.563021984882704]
高品質な多言語フィードバックデータを生成するための,新しいスケーラブルな手法を提案する。
我々の選好訓練モデルはAya 23 8Bに対して54.4%の勝利率を達成した。
その結果,世界の人口の半分をカバーする23言語にアライメント手法のフロンティアを広げた。
論文 参考訳(メタデータ) (2024-07-02T17:42:30Z) - Bridging the Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
しかしながら、その傾向と有効性は、非ラテン文字や低リソース言語に限られている。
本稿では,LLMの多言語的性能向上を,広範囲の訓練や微調整を伴わずに行うことの必須課題に対処する。
論文 参考訳(メタデータ) (2024-05-28T16:56:42Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。