論文の概要: Assessing Reference-Free Peer Evaluation for Machine Translation
- arxiv url: http://arxiv.org/abs/2104.05146v1
- Date: Mon, 12 Apr 2021 00:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 05:04:10.844906
- Title: Assessing Reference-Free Peer Evaluation for Machine Translation
- Title(参考訳): 機械翻訳における参照フリーピア評価の評価
- Authors: Sweta Agrawal, George Foster, Markus Freitag, Colin Cherry
- Abstract要約: BLEUは,基準自由度として用いると,技術結果の状態を達成できることを示す。
このアプローチの様々な潜在的な弱点を分析し、驚くほど堅牢で、幅広い領域と異なるシステム品質で合理的なパフォーマンスを提供する可能性が高いことに気付きます。
- 参考スコア(独自算出の注目度): 6.0714908776688645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference-free evaluation has the potential to make machine translation
evaluation substantially more scalable, allowing us to pivot easily to new
languages or domains. It has been recently shown that the probabilities given
by a large, multilingual model can achieve state of the art results when used
as a reference-free metric. We experiment with various modifications to this
model and demonstrate that by scaling it up we can match the performance of
BLEU. We analyze various potential weaknesses of the approach and find that it
is surprisingly robust and likely to offer reasonable performance across a
broad spectrum of domains and different system qualities.
- Abstract(参考訳): 参照なし評価は、機械翻訳の評価を大幅にスケーラブルにする可能性があり、新しい言語やドメインに容易にピボットできる。
近年,大規模な多言語モデルによって与えられる確率は,基準自由度として用いると,技術結果の状態を達成できることが示されている。
我々はこのモデルの様々な変更を試し、それをスケールアップすることでbleuのパフォーマンスにマッチできることを実証する。
このアプローチの様々な潜在的な弱点を分析し、驚くほど堅牢であり、幅広い領域と異なるシステム品質で合理的なパフォーマンスを提供する可能性が高いことを発見した。
関連論文リスト
- Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。
このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。
我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-13T11:48:09Z) - Evaluating and explaining training strategies for zero-shot cross-lingual news sentiment analysis [8.770572911942635]
いくつかの低リソース言語で新しい評価データセットを導入する。
我々は、機械翻訳の使用を含む、様々なアプローチを実験する。
言語間の相似性は言語間移動の成功を予測するのに十分ではないことを示す。
論文 参考訳(メタデータ) (2024-09-30T07:59:41Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Towards Explainable Evaluation Metrics for Machine Translation [32.69015745456696]
説明可能な機械翻訳メトリクスの重要な目的だけでなく、重要な特性も識別する。
本稿では,ChatGPT や GPT4 などの生成モデルに基づく説明可能なメトリクスに対する最新の最先端手法について論じる。
論文 参考訳(メタデータ) (2023-06-22T17:07:57Z) - Improving Factuality and Reasoning in Language Models through Multiagent
Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。
以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。
我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文 参考訳(メタデータ) (2023-05-23T17:55:11Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。