論文の概要: Specification-Aware Machine Translation and Evaluation for Purpose Alignment
- arxiv url: http://arxiv.org/abs/2509.17559v1
- Date: Mon, 22 Sep 2025 10:50:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.318884
- Title: Specification-Aware Machine Translation and Evaluation for Purpose Alignment
- Title(参考訳): 目的アライメントのための仕様対応機械翻訳と評価
- Authors: Yoko Kayano, Saku Sugawara,
- Abstract要約: 専門的な翻訳において仕様が重要な理由に関する理論的根拠を提供するとともに,仕様対応機械翻訳(MT)の実装のための実践的ガイドを提供する。
我々は、専門家のエラー分析、ユーザの嗜好ランキング、自動測定値を用いて、人文翻訳と大規模言語モデル(LLM)からのプロンプトベースのアウトプットを含む5つの翻訳タイプを比較した。
その結果,仕様書による翻訳は人間の評価において人文翻訳よりも一貫して優れており,知覚と期待される品質のギャップが強調された。
- 参考スコア(独自算出の注目度): 10.50113943900077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In professional settings, translation is guided by communicative goals and client needs, often formalized as specifications. While existing evaluation frameworks acknowledge the importance of such specifications, these specifications are often treated only implicitly in machine translation (MT) research. Drawing on translation studies, we provide a theoretical rationale for why specifications matter in professional translation, as well as a practical guide to implementing specification-aware MT and evaluation. Building on this foundation, we apply our framework to the translation of investor relations texts from 33 publicly listed companies. In our experiment, we compare five translation types, including official human translations and prompt-based outputs from large language models (LLMs), using expert error analysis, user preference rankings, and an automatic metric. The results show that LLM translations guided by specifications consistently outperformed official human translations in human evaluations, highlighting a gap between perceived and expected quality. These findings demonstrate that integrating specifications into MT workflows, with human oversight, can improve translation quality in ways aligned with professional practice.
- Abstract(参考訳): 専門的な設定では、翻訳はコミュニケーション上の目標とクライアントのニーズによってガイドされ、しばしば仕様として形式化される。
既存の評価フレームワークはそのような仕様の重要性を認めているが、これらの仕様は機械翻訳(MT)研究でのみ暗黙的に扱われることが多い。
翻訳研究に基づき,専門家翻訳における仕様の重要さに関する理論的根拠を提供するとともに,仕様対応MTと評価の実践的ガイドを提供する。
この基盤を基盤として、上場企業33社からの投資家関係テキストの翻訳に当社の枠組みを適用した。
実験では,大言語モデル(LLM)からの公式翻訳やプロンプトベースの出力を含む5種類の翻訳タイプを比較し,専門家による誤り分析,ユーザの選好ランク付け,自動測定を行った。
以上の結果から, LLM翻訳は人間の評価において, 認識品質と期待品質のギャップを浮き彫りにして, 常に人文翻訳よりも優れていたことが示唆された。
これらの結果から,MTワークフローに仕様を組み込むことで,専門家の実践と整合した翻訳品質が向上することが示唆された。
関連論文リスト
- LiTransProQA: an LLM-based Literary Translation evaluation metric with Professional Question Answering [21.28047224832753]
LiTransProQA(リトランプロQA)は、文学翻訳評価のために設計されたLLMベースの質問応答フレームワークである。
プロの文芸翻訳家や研究者の洞察を融合させ、文学機器、文化理解、権威的な声に焦点を当てている。
LiTransProQAは現在の指標を大幅に上回り、相関関係の最大0.07倍、最先端の指標を15ポイント以上上回っている。
論文 参考訳(メタデータ) (2025-05-08T17:12:56Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Optimizing Machine Translation through Prompt Engineering: An
Investigation into ChatGPT's Customizability [0.0]
この研究は、ChatGPTのような大規模言語モデルに適切なプロンプトが組み込まれれば、柔軟な翻訳が可能になることを明らかにしている。
この研究は、特定の条件を満たす翻訳を生成するためにプロンプトを使用すると、翻訳品質の変化を精査する。
論文 参考訳(メタデータ) (2023-08-02T19:11:04Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - A Bayesian approach to translators' reliability assessment [0.0]
我々は、複雑なシステムの観点から、翻訳品質評価プロセスを複雑なプロセスとみなす。
TQAプロセスに関わる特徴,すなわち翻訳難易度,翻訳生成と品質評価に関わる翻訳者の特性をパラメータ化する2つのベイズモデルを構築した。
専門家翻訳者であっても、レビュアーの信頼性は当然と言えないことを示す。
論文 参考訳(メタデータ) (2022-03-14T14:29:45Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。