論文の概要: How Important is `Perfect' English for Machine Translation Prompts?
- arxiv url: http://arxiv.org/abs/2507.09509v1
- Date: Sun, 13 Jul 2025 06:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.371761
- Title: How Important is `Perfect' English for Machine Translation Prompts?
- Title(参考訳): 機械翻訳における「完璧な」英語はどのくらい重要か?
- Authors: Patrícia Schmidtová, Niyati Bafna, Seth Aycock, Gianluca Vico, Wiktor Kamzela, Katharina Hämmerl, Vilém Zouhar,
- Abstract要約: 大規模言語モデル (LLM) は最近の機械翻訳評価において最上位の成果を上げている。
ユーザプロンプトにおける人為的および合成的エラーがLLMの性能に与える影響を系統的に評価した。
- 参考スコア(独自算出の注目度): 6.484294395682893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved top results in recent machine translation evaluations, but they are also known to be sensitive to errors and perturbations in their prompts. We systematically evaluate how both humanly plausible and synthetic errors in user prompts affect LLMs' performance on two related tasks: Machine translation and machine translation evaluation. We provide both a quantitative analysis and qualitative insights into how the models respond to increasing noise in the user prompt. The prompt quality strongly affects the translation performance: With many errors, even a good prompt can underperform a minimal or poor prompt without errors. However, different noise types impact translation quality differently, with character-level and combined noisers degrading performance more than phrasal perturbations. Qualitative analysis reveals that lower prompt quality largely leads to poorer instruction following, rather than directly affecting translation quality itself. Further, LLMs can still translate in scenarios with overwhelming random noise that would make the prompt illegible to humans.
- Abstract(参考訳): 大規模言語モデル (LLM) は最近の機械翻訳評価において最上位の結果を得たが、そのプロンプトの誤りや摂動に敏感であることが知られている。
機械翻訳と機械翻訳の2つのタスクにおいて,ユーザプロンプトにおける人為的可算誤差と合成誤差の両方がLLMの性能に与える影響を系統的に評価した。
ユーザプロンプトのノイズの増加に対して,モデルがどのように反応するかを定量的に分析し,定性的に把握する。
プロンプトの品質は、翻訳のパフォーマンスに強く影響します。 多くのエラーがある場合、良いプロンプトでさえ、エラーなしでは最小限のプロンプトや劣悪なプロンプトを過小評価できます。
しかし、異なるノイズタイプが翻訳品質に異なる影響を与え、文字レベルと組み合わせたノイズは、フレーズの摂動よりも性能を劣化させる。
質的な分析により、翻訳品質自体に直接的な影響を与えるのではなく、低速な品質が後続の指示に大きく影響することが明らかとなった。
さらに、LSMは圧倒的なランダムノイズのあるシナリオでも翻訳でき、それによって人間にとって不可解なプロンプトが生まれる。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing [39.375342978538654]
機械翻訳を行うためにLLM(Large Language Models)を活用することに注力する。
誤りの2つのパターンが頻繁に発生し、言語ミスマッチと繰り返しの翻訳品質に劇的な影響を与えていることを観察する。
モデル編集手法を活用することにより,これらの2つの問題を緩和する可能性について検討する。
論文 参考訳(メタデータ) (2024-10-09T16:51:21Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - QUEST: Quality-Aware Metropolis-Hastings Sampling for Machine Translation [25.165239478219267]
本稿では,ギブス分布のエネルギー関数として,ノイズ品質推定の過度な信頼を回避するための簡易かつ効果的な手法を提案する。
分布のモードを探す代わりに、メトロポリス・ハスティングスアルゴリズムを用いて高密度領域から複数のサンプルを生成する。
論文 参考訳(メタデータ) (2024-05-28T17:36:06Z) - xCOMET: Transparent Machine Translation Evaluation through Fine-grained
Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。
文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。
また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文 参考訳(メタデータ) (2023-10-16T15:03:14Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Prompting Large Language Model for Machine Translation: A Case Study [87.88120385000666]
我々は機械翻訳戦略の推進に関する体系的研究を行っている。
本稿では,プロンプトテンプレートと実演例選択の要因について検討する。
本稿では,モノリンガルデータの利用と,クロスリンガル,クロスドメイン,文-文書間伝達学習の実現可能性について検討する。
論文 参考訳(メタデータ) (2023-01-17T18:32:06Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。