論文の概要: Generating Difficult-to-Translate Texts
- arxiv url: http://arxiv.org/abs/2509.26592v2
- Date: Thu, 02 Oct 2025 11:06:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.162347
- Title: Generating Difficult-to-Translate Texts
- Title(参考訳): 難読テキストの生成
- Authors: Vilém Zouhar, Wenda Xu, Parker Riley, Juraj Juraska, Mara Finkelstein, Markus Freitag, Daniel Deutsch,
- Abstract要約: 現実世界から得られた機械翻訳ベンチマークは、急速に廃止された。
サブサンプリングやオフスクラッチ合成のような難しいテストケースを作成するための現在の手法は、難しい例を識別できないか、多様性と自然性の欠如に悩まされているかのいずれかである。
MTブレーカ(MT-breaker)は,大規模な言語モデルにおいて,翻訳の難易度を高めるために,ソーステキストを反復的に洗練する手法である。
- 参考スコア(独自算出の注目度): 35.07708643603076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation benchmarks sourced from the real world are quickly obsoleted, due to most examples being easy for state-of-the-art translation models. This limits the benchmark's ability to distinguish which model is better or to reveal models' weaknesses. Current methods for creating difficult test cases, such as subsampling or from-scratch synthesis, either fall short of identifying difficult examples or suffer from a lack of diversity and naturalness. Inspired by the iterative process of human experts probing for model failures, we propose MT-breaker, a method where a large language model iteratively refines a source text to increase its translation difficulty. The LLM iteratively queries a target machine translation model to guide its generation of difficult examples. Our approach generates examples that are more challenging for the target MT model while preserving the diversity of natural texts. While the examples are tailored to a particular machine translation model during the generation, the difficulty also transfers to other models and languages.
- Abstract(参考訳): 実世界の機械翻訳ベンチマークは、ほとんどの例が最先端の翻訳モデルにとって容易であるため、急速に時代遅れになっている。
これにより、ベンチマークのどのモデルが優れているか、あるいはモデルの弱点を明らかにする能力が制限される。
サブサンプリングやオフスクラッチ合成のような難しいテストケースを作成するための現在の手法は、難しい例を識別できないか、多様性と自然性の欠如に悩まされているかのいずれかである。
モデル故障を探索する人間専門家の反復的プロセスにインスパイアされたMTブレーカーは,大言語モデルが翻訳の難しさを高めるために,原文を反復的に洗練する手法である。
LLMは、ターゲットマシン翻訳モデルを反復的にクエリして、難しいサンプルの生成をガイドする。
提案手法は,自然文の多様性を保ちながら,目的のMTモデルにとってより困難な例を生成する。
例は生成中に特定の機械翻訳モデルに適合するが、難易度は他のモデルや言語にも変換される。
関連論文リスト
- Estimating Machine Translation Difficulty [48.659971048116766]
翻訳難易度推定のタスクを形式化し、その翻訳の期待品質に基づいてテキストの難易度を定義する。
本稿では,機械翻訳のためのより困難なベンチマークを構築するために,難易度推定器の実用性を示す。
難易度推定のための2つの改良されたモデル、Sentinel-src-24とSentinel-src-25をリリースする。
論文 参考訳(メタデータ) (2025-08-13T20:22:58Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - Difficulty Estimation and Simplification of French Text Using LLMs [1.0568851068989973]
外国語テキストの難易度を推定することに集中して,大規模言語モデルを言語学習アプリケーションに活用する。
本研究では,ラベル付き例,移動学習,および大規模言語モデルを用いた難易度分類モデルを構築し,従来の手法に比べて精度が高いことを示す。
我々の実験はフランス語のテキストで行われているが、我々の手法は言語に依存しず、他の外国語にも直接適用できる。
論文 参考訳(メタデータ) (2024-07-25T14:16:08Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Vector-Quantized Prompt Learning for Paraphrase Generation [18.40940464497253]
本稿では、事前学習されたモデルにインスタンス依存のプロンプトを組み込むことにより、多種多様な高品質なパラフレーズを生成することを提案する。
大規模な実験により,提案手法は3つのベンチマークデータセットに対して新たな最先端結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-25T07:13:06Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。