論文の概要: MAATS: A Multi-Agent Automated Translation System Based on MQM Evaluation
- arxiv url: http://arxiv.org/abs/2505.14848v1
- Date: Tue, 20 May 2025 19:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.720331
- Title: MAATS: A Multi-Agent Automated Translation System Based on MQM Evaluation
- Title(参考訳): MAATS:MQM評価に基づくマルチエージェント自動翻訳システム
- Authors: Xi Wang, Jiaqian Hu, Safinah Ali,
- Abstract要約: MAATSは複数の専門的なAIエージェントを採用しており、それぞれが独自のMQMカテゴリに焦点を当てている。
特に意味的正確性、局所的適応、言語学的に離れた言語対において優れている。
モジュールエージェントの役割を解釈可能なMQM次元に合わせることで、MAATSはブラックボックスLLMと人間の翻訳のギャップを狭める。
- 参考スコア(独自算出の注目度): 9.331779458661831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MAATS, a Multi Agent Automated Translation System that leverages the Multidimensional Quality Metrics (MQM) framework as a fine-grained signal for error detection and refinement. MAATS employs multiple specialized AI agents, each focused on a distinct MQM category (e.g., Accuracy, Fluency, Style, Terminology), followed by a synthesis agent that integrates the annotations to iteratively refine translations. This design contrasts with conventional single-agent methods that rely on self-correction. Evaluated across diverse language pairs and Large Language Models (LLMs), MAATS outperforms zero-shot and single-agent baselines with statistically significant gains in both automatic metrics and human assessments. It excels particularly in semantic accuracy, locale adaptation, and linguistically distant language pairs. Qualitative analysis highlights its strengths in multi-layered error diagnosis, omission detection across perspectives, and context-aware refinement. By aligning modular agent roles with interpretable MQM dimensions, MAATS narrows the gap between black-box LLMs and human translation workflows, shifting focus from surface fluency to deeper semantic and contextual fidelity.
- Abstract(参考訳): 本稿では,Multidimensional Quality Metrics (MQM) フレームワークを利用したマルチエージェント自動翻訳システムMAATSを提案する。
MAATSは複数の専門的なAIエージェントを採用しており、それぞれが独自のMQMカテゴリ(例えば、正確性、フルーエンシ、スタイル、ターミノロジー)に焦点を当て、その後、アノテーションを統合して翻訳を反復的に洗練する合成エージェントが採用されている。
この設計は、自己補正に依存する従来の単一エージェント方式とは対照的である。
多様な言語ペアとLarge Language Models (LLMs)で評価され、MAATSはゼロショットベースラインとシングルエージェントベースラインを上回り、自動測定と人的評価の両方で統計的に有意な利益を上げている。
特に意味的正確性、局所的適応、言語学的に離れた言語対において優れている。
定性的分析は、多層的エラー診断、視点を越えた欠落検出、文脈認識の洗練におけるその強みを強調している。
モジュールエージェントの役割を解釈可能なMQM次元に合わせることで、MAATSはブラックボックスのLLMと人間の翻訳ワークフローのギャップを狭め、表面の流感からより深い意味と文脈の忠実さへと焦点を移す。
関連論文リスト
- M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AGIの品質評価のための包括的なフレームワークである。
中間画像記述を生成する構造付きマルチラウンド評価機構を含む。
複数のベンチマークデータセットで実施された実験は、M3-AGIQAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - CATER: Leveraging LLM to Pioneer a Multidimensional, Reference-Independent Paradigm in Translation Quality Evaluation [0.0]
Comprehensive AI-assisted Translation Edit Ratio (CATER)は、機械翻訳(MT)の品質を評価するための新しいフレームワークである。
大きな言語モデル(LLM)は、慎重に設計されたプロンプトベースのプロトコルによって使用される。
論文 参考訳(メタデータ) (2024-12-15T17:45:34Z) - MM-R$^3$: On (In-)Consistency of Multi-modal Large Language Models (MLLMs) [26.475993408532304]
本研究では,MLLMモデルが意味論的に類似したクエリに対して,意味論的に類似あるいは同一の応答を生成する能力について検討する。
本稿では,SoTA MLLMの一貫性と精度の観点から,MM-R$3$ベンチマークを提案する。
我々の分析では、一貫性が必ずしも精度と一致していないことを示し、高い精度のモデルが必ずしも一致しているとは限らないことを示し、その逆も示している。
論文 参考訳(メタデータ) (2024-10-07T06:36:55Z) - Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。
参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。
全体として、RemBERTは最も有望なモデルとして現れます。
論文 参考訳(メタデータ) (2024-03-19T12:02:38Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Exploring Human-Like Translation Strategy with Large Language Models [93.49333173279508]
大規模言語モデル(LLM)は、一般的なシナリオにおいて印象的な機能を示している。
本研究は,マルチアスペクト・プロンプトと選択のためのMAPSフレームワークを提案する。
品質推定に基づく選択機構を用いて,ノイズや不ヘッピーな知識を抽出する。
論文 参考訳(メタデータ) (2023-05-06T19:03:12Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。