Fugu-MT 論文翻訳(概要): Should We be Pedantic About Reasoning Errors in Machine Translation?

論文の概要: Should We be Pedantic About Reasoning Errors in Machine Translation?

arxiv url: http://arxiv.org/abs/2604.09890v1
Date: Fri, 10 Apr 2026 20:37:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.73414
Title: Should We be Pedantic About Reasoning Errors in Machine Translation?
Title（参考訳）: 機械翻訳における誤りの推論について考えるべきだろうか?
Authors: Calvin Bao, Marine Carpuat,
Abstract要約: 複数の言語ペアリングにまたがる翻訳における推論エラーが見つかる。本稿では,これらの同定された推論誤差に対して,乱れ跡を補正した推論モデルを探索する。これらの推論誤差を除去しても初期誤差は著しく解決されないことが判明し,機械翻訳への忠実性の制限が示唆された。
参考スコア（独自算出の注目度）: 19.569497724315738
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Across multiple language pairings (English $\to$ \{Spanish, French, German, Mandarin, Japanese, Urdu, Cantonese\}), we find reasoning errors in translation. To quantify how often these reasoning errors occur, we leverage an automated annotation protocol for reasoning evaluation wherein the goal is to detect if a reasoning step is any of three error categories: (1) source sentence-misaligned, (2) model hypothesis-misaligned, or (3) reasoning trace-misaligned. We probe the reasoning model with perturbed traces correcting for these identified reasoning errors using an array of weak-to-strong interventions: hedging, removal, re-reasoning after removal, hindsight, and oracle interventions. Experimenting with interventions on the reasoning traces suggests that small corrections to the reasoning have little impact on translation quality, but stronger interventions yield the highest resolution rates, despite translation quality gains being mixed. We find ultimately that reasoning errors in MT can be identified with high precision in Urdu but lower precision in Spanish, but that removing these reasoning errors does not resolve the initial errors significantly, suggesting limited reasoning faithfulness for machine translation.
Abstract（参考訳）: 複数の言語ペアリング(英: $\to$ \{ Spanish, French, German, Mandarin, Japanese, Urdu, Cantonese\})は、翻訳の誤りを推論する。これらの推論エラーの発生頻度を定量化するために、推論評価のための自動アノテーションプロトコルを活用し、その目標は、推論ステップが、(1)ソース文ミスアライメント、(2)モデル仮説ミスアライメント、または(3)推論トレースミスアライメントの3つのエラーカテゴリのいずれかであるかどうかを検出することである。本研究は, 重み付け, 除去, 除去後の再放散, 後視, オラクルの介入といった, 弱々しい介入の配列を用いて, 同定された推論誤差を補正した摂動トレースを用いた推論モデルを探索する。推論トレースに対する介入実験により、翻訳品質にはほとんど影響しないが、翻訳品質の上昇が混在しているにもかかわらず、より強い介入は高い解像度率をもたらすことが示唆された。最終的に、MTにおける推論誤差はウルドゥー語では高い精度で識別できるが、スペイン語では低い精度で識別できるが、これらの推論誤差を除去することは、機械翻訳において限られた推論忠実さを示唆している。

関連論文リスト

LLM Reasoning Predicts When Models Are Right: Evidence from Coding Classroom Discourse [0.18268488712787334]
大規模言語モデル(LLM)は、大規模に教育対話を自動的にラベル付けし分析するために、ますます多くデプロイされている。本研究では,LLMが生成した推論がモデル自身の予測の正確性を予測するのに有効かどうかを検討する。授業の対話から30,300人の教師の発話を分析し,複数の最先端LPMでラベル付けし,指導的移動構造とそれに伴う推論を行った。
論文参考訳（メタデータ） (2026-02-10T14:38:13Z)
Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models [66.36240676392502]
CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。近年の研究では、ホップ一般化シナリオの推論性能が急落している。推論過程におけるEPヘッドを動的に識別・非活性化する軽量な介入法である推論の試験時間補正を提案する。
論文参考訳（メタデータ） (2026-01-29T03:24:32Z)
Improving Symbolic Translation of Language Models for Logical Reasoning [14.474630644806723]
小さな言語モデル(LM)は、しばしば自然言語(NL)を一階述語論理(FOL)に変換するのに苦労する。既存のアプローチは通常、これらのエラーを修正するために自己イテレーションに依存するが、そのような方法は基礎となるモデルの能力に大きく依存する。本稿では,予測を述語生成とFOL翻訳の2段階に分割し,モデル動作の制御性を高めるインクリメンタル推論を提案する。
論文参考訳（メタデータ） (2026-01-14T12:47:14Z)
Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing [39.375342978538654]
機械翻訳を行うためにLLM(Large Language Models)を活用することに注力する。誤りの2つのパターンが頻繁に発生し、言語ミスマッチと繰り返しの翻訳品質に劇的な影響を与えていることを観察する。モデル編集手法を活用することにより,これらの2つの問題を緩和する可能性について検討する。
論文参考訳（メタデータ） (2024-10-09T16:51:21Z)
A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文参考訳（メタデータ） (2024-09-06T09:26:45Z)
Crossing the Threshold: Idiomatic Machine Translation through Retrieval Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文参考訳（メタデータ） (2023-10-10T23:47:25Z)
Towards Fine-Grained Information: Identifying the Type and Location of Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文参考訳（メタデータ） (2023-02-17T16:20:33Z)
End-to-End Lexically Constrained Machine Translation for Morphologically Rich Languages [0.0]
本研究は, 機械翻訳による単語の正しいインフレクションを許容する機構について検討する。英語とチェコ語のペアを用いた実験により, 自動評価と手動評価の両方において, 制約付き単語の翻訳が改良されることが示唆された。
論文参考訳（メタデータ） (2021-06-23T13:40:13Z)
On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文参考訳（メタデータ） (2020-05-12T11:01:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。