論文の概要: HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation
- arxiv url: http://arxiv.org/abs/2505.16281v1
- Date: Thu, 22 May 2025 06:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.084627
- Title: HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation
- Title(参考訳): HiMATE: 機械翻訳評価のための階層型マルチエージェントフレームワーク
- Authors: Shijie Zhang, Renhao Li, Songsheng Wang, Philipp Koehn, Min Yang, Derek F. Wong,
- Abstract要約: HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。
MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。
経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 38.67031685302134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Large Language Models (LLMs) enables flexible and interpretable automatic evaluations. In the field of machine translation evaluation, utilizing LLMs with translation error annotations based on Multidimensional Quality Metrics (MQM) yields more human-aligned judgments. However, current LLM-based evaluation methods still face challenges in accurately identifying error spans and assessing their severity. In this paper, we propose HiMATE, a Hierarchical Multi-Agent Framework for Machine Translation Evaluation. We argue that existing approaches inadequately exploit the fine-grained structural and semantic information within the MQM hierarchy. To address this, we develop a hierarchical multi-agent system grounded in the MQM error typology, enabling granular evaluation of subtype errors. Two key strategies are incorporated to further mitigate systemic hallucinations within the framework: the utilization of the model's self-reflection capability and the facilitation of agent discussion involving asymmetric information. Empirically, HiMATE outperforms competitive baselines across different datasets in conducting human-aligned evaluations. Further analyses underscore its significant advantage in error span detection and severity assessment, achieving an average F1-score improvement of 89% over the best-performing baseline. We make our code and data publicly available at https://anonymous.4open.science/r/HiMATE-Anony.
- Abstract(参考訳): LLM(Large Language Models)の進歩は、柔軟かつ解釈可能な自動評価を可能にする。
機械翻訳評価の分野では,多次元品質指標(MQM)に基づく翻訳誤りアノテーションを用いたLLMを用いることで,より人為的な判断が得られる。
しかし、現在のLLMに基づく評価手法は、誤差の範囲を正確に識別し、その重大さを評価するという課題に直面している。
本稿では,機械翻訳評価のための階層型マルチエージェントフレームワークであるHiMATEを提案する。
既存のアプローチでは、MQM階層内のきめ細かい構造情報や意味情報を不適切に利用しています。
そこで本研究では,MQMエラー型に基づく階層型マルチエージェントシステムを開発し,サブタイプエラーの詳細な評価を可能にする。
フレームワーク内の体系的な幻覚をさらに緩和するために、2つの重要な戦略が組み込まれている:モデルの自己回帰能力の利用と、非対称情報を含むエージェント議論の促進である。
経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
さらなる分析は、エラースパンの検出と重大度評価において大きな優位性を示し、最高性能のベースラインに対して平均89%のF1スコア改善を達成した。
コードとデータはhttps://anonymous.4open.science/r/HiMATE-Anonyで公開しています。
関連論文リスト
- MAATS: A Multi-Agent Automated Translation System Based on MQM Evaluation [9.331779458661831]
MAATSは複数の専門的なAIエージェントを採用しており、それぞれが独自のMQMカテゴリに焦点を当てている。
特に意味的正確性、局所的適応、言語学的に離れた言語対において優れている。
モジュールエージェントの役割を解釈可能なMQM次元に合わせることで、MAATSはブラックボックスLLMと人間の翻訳のギャップを狭める。
論文 参考訳(メタデータ) (2025-05-20T19:29:05Z) - M-MAD: Multidimensional Multi-Agent Debate for Advanced Machine Translation Evaluation [12.042804590050089]
多次元マルチエージェント・ディベート(Multidimensional Multi-Agent Debate, M-MAD)は、機械翻訳評価のための体系的LLMベースのマルチエージェントフレームワークである。
その結果,M-MAD は(1) MQM 基準を細粒度評価のための異なる評価次元に分解することにより,顕著な進歩を達成できることが示唆された。
総合的な実験により、M-MADは既存のLCM-as-a-judge法よりも優れているだけでなく、最先端の参照ベースの自動メトリクスと競合することが示された。
論文 参考訳(メタデータ) (2024-12-28T12:11:28Z) - Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content? [6.213698466889738]
本稿では,ユーザ生成コンテンツ(UGC)の機械翻訳において,大規模言語モデル(LLM)が最先端の品質評価手法であるかどうかを検討する。
既存の感情関連データセットに人為的アノテートエラーを付加し,多次元品質指標に基づく品質評価スコアを算出した。
論文 参考訳(メタデータ) (2024-10-08T20:16:59Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Dynamic Evaluation of Large Language Models by Meta Probing Agents [44.20074234421295]
大規模言語モデル(LLM)を評価するためのメタ・プロブリング・エージェント(MPA)を提案する。
MPAはDyVal 2の重要なコンポーネントであり、DyValcitepzhu2023dyvalを自然に拡張している。
MPAは、探索および判定エージェントを設計し、元の評価問題を心理測定理論に従って新しいものに自動的に変換する。
論文 参考訳(メタデータ) (2024-02-21T06:46:34Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。