Fugu-MT 論文翻訳(概要): Translation Canvas: An Explainable Interface to Pinpoint and Analyze Translation Systems

論文の概要: Translation Canvas: An Explainable Interface to Pinpoint and Analyze Translation Systems

arxiv url: http://arxiv.org/abs/2410.10861v3
Date: Sun, 20 Oct 2024 22:10:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.354525
Title: Translation Canvas: An Explainable Interface to Pinpoint and Analyze Translation Systems
Title（参考訳）: Translation Canvas: ピンポイントと解析システムへの説明可能なインターフェース
Authors: Chinmay Dandekar, Wenda Xu, Xi Xu, Siqi Ouyang, Lei Li,
Abstract要約: 本稿では,翻訳システムの性能をピンポイントし解析するための説明可能なインタフェースであるTranslation Canvasを紹介する。エラースパンを説明付きで強調し、システムの予測を選択的に表示することで、きめ細かい分析をサポートする。人間による評価によると、Translation CanvasはCOMETやSacreBLEUパッケージよりも優れたパフォーマンスを示している。
参考スコア（独自算出の注目度）: 16.102196839755823
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid advancement of machine translation research, evaluation toolkits have become essential for benchmarking system progress. Tools like COMET and SacreBLEU offer single quality score assessments that are effective for pairwise system comparisons. However, these tools provide limited insights for fine-grained system-level comparisons and the analysis of instance-level defects. To address these limitations, we introduce Translation Canvas, an explainable interface designed to pinpoint and analyze translation systems' performance: 1) Translation Canvas assists machine translation researchers in comprehending system-level model performance by identifying common errors (their frequency and severity) and analyzing relationships between different systems based on various evaluation metrics. 2) It supports fine-grained analysis by highlighting error spans with explanations and selectively displaying systems' predictions. According to human evaluation, Translation Canvas demonstrates superior performance over COMET and SacreBLEU packages under enjoyability and understandability criteria.
Abstract（参考訳）: 機械翻訳研究の急速な進歩に伴い、評価ツールキットはシステムの進歩をベンチマークするために欠かせないものとなっている。 COMETやSacreBLEUのようなツールは、ペアのシステム比較に有効な単一の品質スコア評価を提供する。しかし、これらのツールは、きめ細かいシステムレベルの比較とインスタンスレベルの欠陥の分析に限定的な洞察を提供する。これらの制限に対処するため,翻訳システムの性能をピンポイントし解析するための説明可能なインタフェースであるTranslation Canvasを紹介した。 1)翻訳Canvasは,共通誤り(頻度と重大さ)を特定し,様々な評価指標に基づいてシステム間の関係を解析することにより,システムレベルのモデル性能の理解を支援する。 2) エラースパンを説明付きで強調し, システムの予測を選択的に表示することによって, きめ細かい解析を支援する。人間による評価によると、Translation Canvasは、楽しみと理解可能性の基準の下でCOMETやSacreBLEUパッケージよりも優れた性能を示す。

関連論文リスト

DeformAr: Rethinking NER Evaluation through Component Analysis and Visual Analytics [0.0]
本稿では,アラビア語と英語のNERシステム間の性能差を調査・説明するためのフレームワークであるDeformArを紹介する。 DeformArはアラビア語固有の最初のコンポーネントベースの解釈ツールであり、アンダーリソース言語でモデル解析を進める上で重要なリソースを提供する。
論文参考訳（メタデータ） (2025-11-30T15:39:28Z)
Estimating Machine Translation Difficulty [48.659971048116766]
翻訳難易度推定のタスクを形式化し、その翻訳の期待品質に基づいてテキストの難易度を定義する。本稿では,機械翻訳のためのより困難なベンチマークを構築するために,難易度推定器の実用性を示す。難易度推定のための2つの改良されたモデル、Sentinel-src-24とSentinel-src-25をリリースする。
論文参考訳（メタデータ） (2025-08-13T20:22:58Z)
MT-LENS: An all-in-one Toolkit for Better Machine Translation Evaluation [1.7775825387442485]
MT-LENSは、様々なタスクで機械翻訳(MT)システムを評価するために設計されたフレームワークである。ユーザーフレンドリーなプラットフォームを提供し、システムを比較し、翻訳をインタラクティブな視覚化で分析する。
論文参考訳（メタデータ） (2024-12-16T09:57:28Z)
A Context-aware Framework for Translation-mediated Conversations [29.169155271343083]
学習と推論において,バイリンガルな会話設定に文脈情報を組み込むことで,大規模言語モデルに基づく翻訳システムを改善する枠組みを提案する。提案するフレームワークは,2つのタスク指向ドメイン – ユーザチャットとユーザ-アシストインタラクション – で検証する。両方の設定で、フレームワーク-TowerChatで生成されたシステムは、GPT-4oやT TowerInstructのような最先端のシステムよりも優れた翻訳結果をもたらす。
論文参考訳（メタデータ） (2024-12-05T14:41:05Z)
xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文参考訳（メタデータ） (2023-10-16T15:03:14Z)
End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文参考訳（メタデータ） (2023-08-07T09:06:20Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
Quality Estimation of Machine Translated Texts based on Direct Evidence from Training Data [0.0]
MTシステムのトレーニングデータとして使用される並列コーパスは,MTシステムによって生成された翻訳の質を推定するための直接的な手がかりを有することを示す。実験の結果,本手法は純粋にデータ駆動型機械翻訳システムによって生成された翻訳の品質評価に有効であることがわかった。
論文参考訳（メタデータ） (2023-06-27T11:52:28Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)
Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文参考訳（メタデータ） (2020-06-11T09:12:53Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)
Can Your Context-Aware MT System Pass the DiP Benchmark Tests? : Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文参考訳（メタデータ） (2020-04-30T07:15:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。