Fugu-MT 論文翻訳(概要): English Please: Evaluating Machine Translation with Large Language Models for Multilingual Bug Reports

論文の概要: English Please: Evaluating Machine Translation with Large Language Models for Multilingual Bug Reports

arxiv url: http://arxiv.org/abs/2502.14338v3
Date: Mon, 05 May 2025 21:32:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 16:47:35.716251
Title: English Please: Evaluating Machine Translation with Large Language Models for Multilingual Bug Reports
Title（参考訳）: 英語:Multilingual Bug Reportsのための大規模言語モデルによる機械翻訳の評価
Authors: Avinash Patil, Aryan Jadon,
Abstract要約: 本研究は,バグ報告における機械翻訳(MT)性能の総合評価としては初めてである。私たちは、DeepL、AWS Translate、ChatGPT、Claude、Gemini、LLaMA、Mistralといった大規模言語モデルの性能を分析します。我々は, BLEU, BERTScore, COMET, METEOR, ROUGE-Allongsideの分類指標(精度, 精度, リコール, F1スコア)を含むMT評価指標を多用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate translation of bug reports is critical for efficient collaboration in global software development. In this study, we conduct the first comprehensive evaluation of machine translation (MT) performance on bug reports, analyzing the capabilities of DeepL, AWS Translate, and large language models such as ChatGPT, Claude, Gemini, LLaMA, and Mistral using data from the Visual Studio Code GitHub repository, specifically focusing on reports labeled with the english-please tag. To assess both translation quality and source language identification accuracy, we employ a range of MT evaluation metrics-including BLEU, BERTScore, COMET, METEOR, and ROUGE-alongside classification metrics such as accuracy, precision, recall, and F1-score. Our findings reveal that while ChatGPT (gpt-4o) excels in semantic and lexical translation quality, it does not lead in source language identification. Claude and Mistral achieve the highest F1-scores (0.7182 and 0.7142, respectively), and Gemini records the best precision (0.7414). AWS Translate shows the highest accuracy (0.4717) in identifying source languages. These results highlight that no single system dominates across all tasks, reinforcing the importance of task-specific evaluations. This study underscores the need for domain adaptation when translating technical content and provides actionable insights for integrating MT into bug-triaging workflows. The code and dataset for this paper are available at GitHub-https://github.com/av9ash/English-Please
Abstract（参考訳）: バグレポートの正確な翻訳は、グローバルソフトウェア開発における効率的なコラボレーションに不可欠である。本研究では,DeepL,AWS Translate,ChatGPT,Claude,Gemini,LLaMA,Mistralなどの大規模言語モデルのバグレポートに対する機械翻訳(MT)パフォーマンスの総合評価を行う。翻訳品質とソース言語の識別精度を両立させるために, BLEU, BERTScore, COMET, METEOR, ROUGE-Allongsideの分類指標である精度, 精度, リコール, F1スコアなど, MT評価指標を用いた。以上の結果から,ChatGPT(gpt-4o)は意味翻訳や語彙翻訳の質に優れるが,ソースコードの同定には至らないことが明らかとなった。クロードとミストラルは最高F1スコア(それぞれ0.7182と0.7142)を獲得し、ジェミニは最高精度(0.7414)を記録した。 AWS Translateは、ソース言語を特定する上で最も正確(0.4717)である。これらの結果は、タスク固有の評価の重要性を補強し、すべてのタスクで単一のシステムが支配的になることはないことを浮き彫りにしている。本研究は、技術的内容の翻訳におけるドメイン適応の必要性を強調し、MTをバグ処理ワークフローに統合するための実用的な洞察を提供する。この論文のコードとデータセットはGitHub-https://github.com/av9ash/ English-Pleaseで公開されている。

関連論文リスト

COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.3062731746155414]
COMI-lingUAは、ヒンディー語と英語のコード混成データセットとしては最大である。 5つのコアNLPタスクにわたる125K以上の高品質なインスタンスで構成されている。各インスタンスには3つのバイリンガルアノテーションがアノテートされ、376K以上の専門家アノテーションが生成される。
論文参考訳（メタデータ） (2025-03-27T16:36:39Z)
Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
本稿では,合成QEデータの分散シフトを緩和する新しいフレームワークであるADSQEを紹介する。 ADSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。実験によると、ADSQEはCOMETのようなSOTAベースラインを教師なしと教師なしの両方で上回っている。
論文参考訳（メタデータ） (2025-02-27T10:11:53Z)
A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文参考訳（メタデータ） (2024-09-04T13:49:45Z)
Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文参考訳（メタデータ） (2024-07-03T17:04:17Z)
LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文参考訳（メタデータ） (2024-06-03T15:30:36Z)
Automated Multi-Language to English Machine Translation Using Generative Pre-Trained Transformers [0.8192907805418583]
本研究では、局所生成事前学習変換(GPT)モデルを用いて、自動ゼロショットブラックボックス、文賢、多言語翻訳を英語テキストに変換する。我々は、50の異なる非英語言語を英語に翻訳するためのHuggingface LLMリポジトリから、カスタムの微調整なしで16の異なるオープンソースGPTモデルをベンチマークした。ベンチマークメトリクスは言語翻訳の正確さ、BLEU、GLEU、METEOR、chrFテキストの重複測定、各文翻訳のウォールクロック時間などである。
論文参考訳（メタデータ） (2024-04-23T02:19:35Z)
Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文参考訳（メタデータ） (2024-01-12T13:23:21Z)
Leveraging Language Identification to Enhance Code-Mixed Text Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文参考訳（メタデータ） (2023-06-08T06:43:10Z)
MuLER: Detailed and Scalable Reference-based Evaluation [24.80921931416632]
そこで本研究では,テキスト生成のための基準ベース評価基準を細粒度解析ツールに変換する手法を提案する。システムとメートル法が与えられたとき、MulERは選択されたメートル法が特定のエラータイプをどれだけ罰するかを定量化する。我々は,MulERの有効性を実証し,その有用性を示すために,合成的および自然主義的な設定の両方で実験を行う。
論文参考訳（メタデータ） (2023-05-24T10:26:13Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文参考訳（メタデータ） (2022-10-01T05:02:04Z)
Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文参考訳（メタデータ） (2022-09-15T15:06:20Z)
OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文参考訳（メタデータ） (2022-05-17T19:52:42Z)
BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing Critical Translation Errors in Sentiment-oriented Text [1.4213973379473654]
オンラインコンテンツの機械翻訳(MT)は、複数の言語で書かれた投稿の処理に一般的に使用される。本稿では,機械翻訳の致命的誤りを検出するための自動品質指標の有効性を評価する。我々は、感情クリティカルなエラーの検出をより堅牢にするために、自動メトリクスの微調整が必要であると結論付けている。
論文参考訳（メタデータ） (2021-09-29T07:51:17Z)
Improving Multilingual Translation by Representation and Gradient Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文参考訳（メタデータ） (2021-09-10T10:52:21Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)
Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。 AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文参考訳（メタデータ） (2020-10-15T18:34:13Z)
Don't Use English Dev: On the Zero-Shot Cross-Lingual Evaluation of Contextual Embeddings [11.042674237070012]
ゼロショット設定において、英語のデベロップメント精度をモデル選択に用いる標準的な手法は再現性のある結果を得るのを困難にしていることを示す。ゼロショットの結果と一緒にオラクルスコアを提供することを推奨します。それでも、英語のデータを使って微調整しますが、ターゲットのデベロップメントセットでチェックポイントを選択します。
論文参考訳（メタデータ） (2020-04-30T17:47:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。