論文の概要: Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets
- arxiv url: http://arxiv.org/abs/2602.22207v1
- Date: Wed, 25 Feb 2026 18:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.958404
- Title: Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets
- Title(参考訳): 翻訳で回復:ベンチマークとデータセットの自動翻訳のための効率的なパイプライン
- Authors: Hanna Yukhymenko, Anton Alexandrov, Martin Vechev,
- Abstract要約: データセットとベンチマークのスケーラブルで高品質な翻訳を可能にするために,完全に自動化されたフレームワークを提案する。
このアプローチを適用して、人気のあるベンチマークとデータセットを8つの東欧と南欧の言語に翻訳します。
- 参考スコア(独自算出の注目度): 2.0199251985015434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reliability of multilingual Large Language Model (LLM) evaluation is currently compromised by the inconsistent quality of translated benchmarks. Existing resources often suffer from semantic drift and context loss, which can lead to misleading performance metrics. In this work, we present a fully automated framework designed to address these challenges by enabling scalable, high-quality translation of datasets and benchmarks. We demonstrate that adapting test-time compute scaling strategies, specifically Universal Self-Improvement (USI) and our proposed multi-round ranking method, T-RANK, allows for significantly higher quality outputs compared to traditional pipelines. Our framework ensures that benchmarks preserve their original task structure and linguistic nuances during localization. We apply this approach to translate popular benchmarks and datasets into eight Eastern and Southern European languages (Ukrainian, Bulgarian, Slovak, Romanian, Lithuanian, Estonian, Turkish, Greek). Evaluations using both reference-based metrics and LLM-as-a-judge show that our translations surpass existing resources, resulting in more accurate downstream model assessment. We release both the framework and the improved benchmarks to facilitate robust and reproducible multilingual AI development.
- Abstract(参考訳): 多言語大言語モデル(LLM)の評価の信頼性は、現在、翻訳されたベンチマークの不整合品質によって損なわれている。
既存のリソースは、しばしばセマンティックドリフトとコンテキストロスに悩まされるため、パフォーマンス指標を誤解させる可能性がある。
本研究では、データセットとベンチマークのスケーラブルで高品質な翻訳を可能にすることによって、これらの課題に対処するために設計された、完全に自動化されたフレームワークを提案する。
テスト時間計算のスケーリング戦略、特にUniversal Self-Improvement (USI) と提案したマルチラウンドランキング手法であるT-RANKは、従来のパイプラインに比べてはるかに高品質な出力を実現することを実証する。
我々のフレームワークは、ベンチマークがローカライゼーション中に元のタスク構造と言語的ニュアンスを保存することを保証します。
このアプローチを適用して、人気のあるベンチマークとデータセットを8つの東欧言語(ウクライナ語、ブルガリア語、スロバキア語、ルーマニア語、リトアニア語、エストニア語、トルコ語、ギリシャ語)に翻訳する。
基準ベースメトリクスとLCM-as-a-judgeの両方を用いた評価は、我々の翻訳が既存のリソースを超え、より正確な下流モデル評価をもたらすことを示している。
私たちは、堅牢で再現可能な多言語AI開発を容易にするために、フレームワークと改善されたベンチマークの両方をリリースします。
関連論文リスト
- Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。
本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。
JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文 参考訳(メタデータ) (2026-02-04T17:02:22Z) - Reflective Translation: Improving Low-Resource Machine Translation via Structured Self-Reflection [0.15229257192293197]
isiZuluやisiXhosaのような低リソース言語は、限られた並列データと言語資源のために機械翻訳において永続的な課題に直面している。
大規模言語モデルの最近の進歩は、自己回帰がモデルを批判し、自身の出力を修正させ、推論品質と事実整合性を改善することを示唆している。
本稿では、モデルが初期翻訳を生成し、構造化された自己批判を生成し、このリフレクションを用いて洗練された翻訳を生成するプロンプトベースのフレームワークであるリフレクティブ翻訳を紹介する。
論文 参考訳(メタデータ) (2026-01-27T18:37:09Z) - Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis [4.061135251278187]
TrGLUEはトルコ語で自然言語理解を評価するためのベンチマークである。
感情分析のための特別なベンチマークであるSentiTurcaも紹介する。
TrGLUEは、ドメインとGLUEスタイルの評価のタスク定式化を反映したトルコ原産コーパスで構成されている。
論文 参考訳(メタデータ) (2025-12-26T18:02:09Z) - Asm2SrcEval: Evaluating Large Language Models for Assembly-to-Source Code Translation [4.45354703148321]
アセンブリ・トゥ・ソースのコード翻訳はリバースエンジニアリング、サイバーセキュリティ、ソフトウェアメンテナンスにおいて重要なタスクである。
本稿では,アセンブリ・トゥ・ソース・トランスフォーメーションにおける5つの最先端大規模言語モデルの包括的評価について述べる。
論文 参考訳(メタデータ) (2025-11-28T12:40:30Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - LLM-Based Evaluation of Low-Resource Machine Translation: A Reference-less Dialect Guided Approach with a Refined Sylheti-English Benchmark [1.3927943269211591]
本稿では,Large Language Models(LLMs)に基づく機械翻訳評価を強化する包括的フレームワークを提案する。
我々は、Sylheti- English文ペア、対応する機械翻訳、およびネイティブ話者が注釈付けしたダイレクトアセスメント(DA)スコアを組み込むことで、ONUBADデータセットを拡張した。
評価の結果,提案したパイプラインは既存の手法より常に優れており,スピアマン相関において+0.1083の高利得が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-18T07:24:13Z) - Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data [18.150384435635477]
多くの設定では、ターゲット言語の単言語コーパスがしばしば利用可能である。
文レベルと単語レベルの整合性を両立させた改良型言語間検索システムを設計した。
また,本手法はモノリンガルよりもはるかに大きく,ベースライン設定と汎用的クロスリンガル検索の双方に対して強い改善が見られた。
論文 参考訳(メタデータ) (2025-04-30T15:41:03Z) - RustRepoTrans: Repository-level Code Translation Benchmark Targeting Rust [50.65321080814249]
RustRepoTransは、インクリメンタル翻訳をターゲットにした、最初のリポジトリレベルのコンテキストコード変換ベンチマークである。
複雑な翻訳シナリオの制約を評価するために, 7つの代表的なLLMを評価し, それらの誤差を分析した。
論文 参考訳(メタデータ) (2024-11-21T10:00:52Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。