論文の概要: TASER: Translation Assessment via Systematic Evaluation and Reasoning
- arxiv url: http://arxiv.org/abs/2510.00255v1
- Date: Tue, 30 Sep 2025 20:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.244398
- Title: TASER: Translation Assessment via Systematic Evaluation and Reasoning
- Title(参考訳): TASER:システム評価と推論による翻訳評価
- Authors: Monishwaran Maheswaran, Marco Carini, Christian Federmann, Tony Diaz,
- Abstract要約: 本稿では,翻訳品質の自動評価にLarge Reasoning Models (LRMs) を用いる指標であるTASER(Translation Assessment via Systematic Evaluation and Reasoning)を紹介する。
Taser は LRM の明示的な推論能力を活用して,翻訳品質の系統的,段階的評価を行う。
Taserは、参照ベースと参照フリーの両方の設定において、最高のソフトなペアワイドの精度を実現し、既存のメトリクスよりも優れています。
- 参考スコア(独自算出の注目度): 5.024482993281034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce TASER (Translation Assessment via Systematic Evaluation and Reasoning), a metric that uses Large Reasoning Models (LRMs) for automated translation quality assessment. TASER harnesses the explicit reasoning capabilities of LRMs to conduct systematic, step-by-step evaluation of translation quality. We evaluate TASER on the WMT24 Metrics Shared Task across both reference-based and reference-free scenarios, demonstrating state-of-the-art performance. In system-level evaluation, TASER achieves the highest soft pairwise accuracy in both reference-based and reference-free settings, outperforming all existing metrics. At the segment level, TASER maintains competitive performance with our reference-free variant ranking as the top-performing metric among all reference-free approaches. Our experiments reveal that structured prompting templates yield superior results with LRMs compared to the open-ended approaches that proved optimal for traditional LLMs. We evaluate o3, a large reasoning model from OpenAI, with varying reasoning efforts, providing insights into the relationship between reasoning depth and evaluation quality. The explicit reasoning process in LRMs offers interpretability and visibility, addressing a key limitation of existing automated metrics. Our results demonstrate that Large Reasoning Models show a measurable advancement in translation quality assessment, combining improved accuracy with transparent evaluation across diverse language pairs.
- Abstract(参考訳): 本稿では,翻訳品質の自動評価にLarge Reasoning Models (LRMs) を用いる指標であるTASER(Translation Assessment via Systematic Evaluation and Reasoning)を紹介する。
TASERは、LRMの明示的な推論能力を利用して、翻訳品質を体系的に段階的に評価する。
我々は,WMT24メトリクス共有タスクにおけるTASERを,参照ベースと参照フリーの両方のシナリオで評価し,最先端の性能を示す。
システムレベルの評価では、TASERは参照ベースと参照フリーの両方で最高のソフトなペアワイドの精度を達成し、既存の指標を上回ります。
セグメンテーションレベルでは、TASERはすべての参照フリーアプローチの中で最高性能の基準フリー変量ランキングと競合する性能を維持している。
提案実験により,構造化プロンプトテンプレートは従来のLLMに最適であることが証明されたオープンエンドアプローチと比較して,LRMよりも優れた結果が得られることがわかった。
我々は,OpenAIの大規模推論モデルであるo3を評価し,推論深度と評価品質の関係について考察した。
LRMの明示的な推論プロセスは、解釈可能性と可視性を提供し、既存の自動メトリクスの重要な制限に対処する。
その結果,大規模推論モデルでは翻訳品質の評価が向上し,精度が向上し,言語ペア間の透過的な評価が可能であることがわかった。
関連論文リスト
- On Robustness and Reliability of Benchmark-Based Evaluation of LLMs [6.121856629864516]
LLM(Large Language Models)の有効性は通常、MMLU、ARC-C、HellaSwagなどのベンチマークによって評価される。
実世界のアプリケーションは言語的多様性を伴い、同じ質問やクエリの様々なリワードでモデルの有効性を維持する必要がある。
そこで我々は,LLMの頑健さをベンチマーク問題に言い換えて体系的に評価し,ベンチマークに基づく評価がモデル能力の信頼性を評価できるかどうかを検証した。
論文 参考訳(メタデータ) (2025-09-04T08:43:27Z) - AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [39.7293877954587]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。
MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。
経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-05-22T06:24:08Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。