論文の概要: Test-Time Scaling with Repeated Sampling Improves Multilingual Text Generation
- arxiv url: http://arxiv.org/abs/2505.21941v1
- Date: Wed, 28 May 2025 03:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.402025
- Title: Test-Time Scaling with Repeated Sampling Improves Multilingual Text Generation
- Title(参考訳): 繰り返しサンプリングによるテスト時間スケーリングによる多言語テキスト生成の改善
- Authors: Ashim Gupta, Vivek Srikumar,
- Abstract要約: 推論時間スケーリングは推論タスクにおいて有望であるが、多言語生成におけるその有効性はまだ未定である。
我々は2つの多言語ベンチマーク上で、パープレキシティと報酬に基づく検証を用いてこのアプローチを評価する。
- 参考スコア(独自算出の注目度): 38.61146150072756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time scaling via repeated sampling has shown promise in reasoning tasks, but its effectiveness in multilingual generation remains underexplored. We evaluate this approach using perplexity- and reward-based verifiers on two multilingual benchmarks: the Aya Evaluation Suite and m-ArenaHard. Our results show consistent quality improvements, with gains exceeding 35% in some cases. While perplexity-based scoring is effective for open-ended prompts, only reward-based verifiers improve performance on tasks requiring reasoning (e.g., math, code). Our results demonstrate the broader utility of repeated sampling for multilingual text generation and underscore the importance of selecting right verifiers for the task.
- Abstract(参考訳): 繰り返しサンプリングによる推論時間スケーリングは、推論タスクにおいて有望であるが、多言語生成におけるその有効性は未定である。
Aya Evaluation Suite と m-ArenaHard という2つの多言語ベンチマーク上で,パープレキシティと報酬に基づく検証手法を用いてこのアプローチを評価する。
結果から,一貫した品質改善が得られ,一部のケースでは35%以上の改善が見られた。
複雑度に基づくスコアリングはオープンなプロンプトに有効であるが、報酬に基づく検証は推論を必要とするタスク(例えば、数学、コード)のパフォーマンスを向上させる。
本研究は,多言語テキスト生成における繰り返しサンプリングの有用性を示すとともに,タスクの正しい検証方法を選択することの重要性を強調した。
関連論文リスト
- Test-Time Code-Switching for Cross-lingual Aspect Sentiment Triplet Extraction [12.269762062755492]
本稿では,バイリンガル学習フェーズと単言語テストタイム予測のギャップを埋めるために,TT-CSW(Test-Time Code-SWitching)フレームワークを提案する。
訓練中は、バイリンガルコード切替トレーニングデータに基づいて生成モデルを構築し、バイリンガル入力のためのバイリンガルASTE三重項を生成する。
テスト段階では、テスト時間拡張のためにアライメントベースのコードスイッチング技術を使用します。
論文 参考訳(メタデータ) (2025-01-24T00:00:51Z) - Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文 参考訳(メタデータ) (2024-04-22T16:56:43Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。