論文の概要: Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing?
- arxiv url: http://arxiv.org/abs/2601.19410v1
- Date: Tue, 27 Jan 2026 09:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.276573
- Title: Do LLMs Truly Benefit from Longer Context in Automatic Post-Editing?
- Title(参考訳): 自動編集におけるLLMはより長い文脈から真に有利か?
- Authors: Ahrii Kim, Seong-heum Kim,
- Abstract要約: 自動後編集(APE)のためのオープンウェイトモデルと大規模言語モデル(LLM)を比較した。
以上の結果から, 単発プロンプトを用いた場合であっても, プロプライエタリなLPMは, ほぼ人間レベルのALP品質を実現することが示唆された。
高いパフォーマンスにもかかわらず、プロプライエタリなLLMの大幅なコストとレイテンシのオーバーヘッドにより、現実のAPEデプロイメントでは実用的ではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic post-editing (APE) aims to refine machine translations by correcting residual errors. Although recent large language models (LLMs) demonstrate strong translation capabilities, their effectiveness for APE--especially under document-level context--remains insufficiently understood. We present a systematic comparison of proprietary and open-weight LLMs under a naive document-level prompting setup, analyzing APE quality, contextual behavior, robustness, and efficiency. Our results show that proprietary LLMs achieve near human-level APE quality even with simple one-shot prompting, regardless of whether document context is provided. While these models exhibit higher robustness to data poisoning attacks than open-weight counterparts, this robustness also reveals a limitation: they largely fail to exploit document-level context for contextual error correction. Furthermore, standard automatic metrics do not reliably reflect these qualitative improvements, highlighting the continued necessity of human evaluation. Despite their strong performance, the substantial cost and latency overheads of proprietary LLMs render them impractical for real-world APE deployment. Overall, our findings elucidate both the promise and current limitations of LLM-based document-aware APE, and point toward the need for more efficient long-context modeling approaches for translation refinement.
- Abstract(参考訳): 自動後編集(APE)は、残差を補正して機械翻訳を洗練することを目的としている。
最近の大規模言語モデル(LLM)は、強力な翻訳能力を示しているが、APE(特に文書レベルの文脈下での)の有効性は十分に理解されていない。
APEの品質、文脈的振る舞い、堅牢性、効率性を解析し、本論文では文書レベルのプロンプト設定の下で、プロプライエタリかつオープンウェイトなLLMを体系的に比較する。
この結果から, 文書コンテキストが提供されていなくても, 単純なワンショットプロンプトでも, プロプライエタリなLLMは人間レベルのALP品質に近いことが示唆された。
これらのモデルは、オープンウェイトなモデルよりもデータ中毒攻撃に対するロバスト性が高いが、このロバスト性はまた制限を明らかにしている。
さらに、標準的な自動メトリクスは、これらの質的改善を確実に反映せず、人間の評価の継続的な必要性を強調している。
高いパフォーマンスにもかかわらず、プロプライエタリなLLMの大幅なコストとレイテンシのオーバーヘッドにより、現実のAPEデプロイメントでは実用的ではない。
全体として,本研究は,LLMベースの文書認識APEの約束と現在の限界の両方を解明し,翻訳改良のためのより効率的な長文モデリングアプローチの必要性を指摘する。
関連論文リスト
- Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Context-Aware or Context-Insensitive? Assessing LLMs' Performance in Document-Level Translation [10.174848090916669]
大規模言語モデル(LLM)は、機械翻訳においてますます強力な競争相手となっている。
文章の外部からの文脈なしには、いくつかの単語を翻訳できない文書レベルの翻訳に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-18T11:52:10Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。
我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。
その結果, LLM は従来と比べ, 誤った単純化出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。