論文の概要: AI agents may be worth the hype but not the resources (yet): An initial exploration of machine translation quality and costs in three language pairs in the legal and news domains
- arxiv url: http://arxiv.org/abs/2505.01560v1
- Date: Fri, 02 May 2025 20:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.175587
- Title: AI agents may be worth the hype but not the resources (yet): An initial exploration of machine translation quality and costs in three language pairs in the legal and news domains
- Title(参考訳): AIエージェントは誇大宣伝に値するかもしれないが、リソースではない (yet): 法律とニュースドメインにおける3つの言語ペアにおける機械翻訳の品質とコストの最初の調査。
- Authors: Vicent Briva Iglesias, Gokhan Dogru,
- Abstract要約: 大規模言語モデル(LLM)とマルチエージェントオーケストレーションは、機械翻訳(MT)における次の飛躍と称される。
本稿では,Google Translate (強力なNTTベースライン), GPT-4o (汎用LDM), o1-preview (推論強化LDM), GPT-4o-powered agenticの5つのパラダイムをベンチマークする。
我々は多次元でコストを意識した評価プロトコルを提唱し、バランスを崩す可能性のある研究の方向性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and multi-agent orchestration are touted as the next leap in machine translation (MT), but their benefits relative to conventional neural MT (NMT) remain unclear. This paper offers an empirical reality check. We benchmark five paradigms, Google Translate (strong NMT baseline), GPT-4o (general-purpose LLM), o1-preview (reasoning-enhanced LLM), and two GPT-4o-powered agentic workflows (sequential three-stage and iterative refinement), on test data drawn from a legal contract and news prose in three English-source pairs: Spanish, Catalan and Turkish. Automatic evaluation is performed with COMET, BLEU, chrF2 and TER; human evaluation is conducted with expert ratings of adequacy and fluency; efficiency with total input-plus-output token counts mapped to April 2025 pricing. Automatic scores still favour the mature NMT system, which ranks first in seven of twelve metric-language combinations; o1-preview ties or places second in most remaining cases, while both multi-agent workflows trail. Human evaluation reverses part of this narrative: o1-preview produces the most adequate and fluent output in five of six comparisons, and the iterative agent edges ahead once, indicating that reasoning layers capture semantic nuance undervalued by surface metrics. Yet these qualitative gains carry steep costs. The sequential agent consumes roughly five times, and the iterative agent fifteen times, the tokens used by NMT or single-pass LLMs. We advocate multidimensional, cost-aware evaluation protocols and highlight research directions that could tip the balance: leaner coordination strategies, selective agent activation, and hybrid pipelines combining single-pass LLMs with targeted agent intervention.
- Abstract(参考訳): 大規模言語モデル(LLM)とマルチエージェントオーケストレーションは、機械翻訳(MT)の次の飛躍と評価されているが、従来のニューラルMT(NMT)と比較して、その利点はいまだ不明である。
本論文は実証現実チェックを提供する。
Google Translate (strong NMT baseline), GPT-4o (General-purpose LLM), o1-preview (reasoning-enhanced LLM), and two GPT-4o-powered agentic workflows (Sequential three-stage and iterationerative refinement), on test data from a legal contract and news prose in three English-source pairs: Spanish, Catalan and Turk。
COMET,BLEU,chrF2,TERを用いて自動評価を行い,2025年4月にマッピングされた入出力トークンの総数による効率性の評価を行った。
自動スコアは依然として成熟したNTTシステムに好まれており、12のメートル法言語の組み合わせのうち7つのうち1つにランクインしている。
o1-previewは6つの比較のうち5つの比較において最も適切で流動的なアウトプットを生成し、反復的なエージェントは1回前に進み、推論レイヤが表面メトリクスによって過度に評価されるセマンティックニュアンスをキャプチャすることを示す。
しかし、これらの質的な利益は高いコストを伴っている。
シーケンシャルエージェントは約5回、繰り返しエージェントは15回、NTTまたはシングルパスLPMで使用されるトークンを消費する。
我々は,多次元でコストを意識した評価プロトコルを提唱し,バランスを崩す可能性のある研究の方向性を強調している。
関連論文リスト
- QUAD-LLM-MLTC: Large Language Models Ensemble Learning for Healthcare Text Multi-Label Classification [4.8342038441006805]
収集された医療用テキストデータのエスカレート量は、テキスト分類を自動化する上でユニークな課題である。
従来の機械学習モデルは、表現されたトピックの配列を完全にキャプチャできないことが多い。
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて顕著な効果を示した。
論文 参考訳(メタデータ) (2025-02-20T01:46:12Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Towards a Realistic Long-Term Benchmark for Open-Web Research Agents [0.21847754147782888]
ファイナンスやコンサルティングにおいて日常的に行われている,実世界のオープンウェブ研究課題に対するエージェントの評価を行った。
我々は、o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1 (405b)、GPT-4o-miniといったエージェントアーキテクチャを構築し、テストした。
LLM全体では、サブタスクをサブエージェントに委譲する機能を備えたReActアーキテクチャが最もよく機能した。
論文 参考訳(メタデータ) (2024-09-23T11:08:04Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Large Language Models "Ad Referendum": How Good Are They at Machine
Translation in the Legal Domain? [0.0]
本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,2つの最先端の大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。
AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。
論文 参考訳(メタデータ) (2024-02-12T14:40:54Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Self-supervised and Supervised Joint Training for Resource-rich Machine
Translation [30.502625878505732]
テキスト表現の自己教師付き事前学習が低リソースニューラルネットワーク翻訳(NMT)に成功している
我々は,NMTモデルを最適化するために,自己教師付き学習と教師付き学習を組み合わせた共同学習手法である$F$-XEnDecを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。