論文の概要: Pearmut: Human Evaluation of Translation Made Trivial
- arxiv url: http://arxiv.org/abs/2601.02933v1
- Date: Tue, 06 Jan 2026 11:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.909017
- Title: Pearmut: Human Evaluation of Translation Made Trivial
- Title(参考訳): Pearmut: 翻訳されたトライヴィアルの人間による評価
- Authors: Vilém Zouhar, Tom Kocmi,
- Abstract要約: 我々はPearmutを紹介した。Pearmutは軽量だが機能豊富なプラットフォームで、エンド・ツー・エンドの人間による評価を自動評価として簡単に行うことができる。
DA、ESA、MQMなどの標準評価プロトコルを実装しているが、新しいプロトコルのプロトタイピングを可能にする。
ドキュメントレベルのコンテキスト、絶対的かつコントラスト的な評価、注意チェック、ESAAI事前アノテーション、静的およびアクティブな学習ベースの割り当て戦略が特徴である。
- 参考スコア(独自算出の注目度): 23.287774132932217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human evaluation is the gold standard for multilingual NLP, but is often skipped in practice and substituted with automatic metrics, because it is notoriously complex and slow to set up with existing tools with substantial engineering and operational overhead. We introduce Pearmut, a lightweight yet feature-rich platform that makes end-to-end human evaluation as easy to run as automatic evaluation. Pearmut removes common entry barriers and provides support for evaluating multilingual tasks, with a particular focus on machine translation. The platform implements standard evaluation protocols, including DA, ESA, or MQM, but is also extensible to allow prototyping new protocols. It features document-level context, absolute and contrastive evaluation, attention checks, ESAAI pre-annotations and both static and active learning-based assignment strategies. Pearmut enables reliable human evaluation to become a practical, routine component of model development and diagnosis rather than an occasional effort.
- Abstract(参考訳): ヒューマンアセスメントは多言語NLPのゴールドスタンダードであるが、エンジニアリングや運用上のオーバーヘッドが大きい既存のツールのセットアップが複雑で遅いため、実際にはスキップされ、自動メトリクスに置き換えられることが多い。
我々はPearmutを紹介した。Pearmutは軽量だが機能豊富なプラットフォームで、エンド・ツー・エンドの人間による評価を自動評価として簡単に行うことができる。
Pearmutは一般的なエントリバリアを取り除き、機械翻訳に特化して多言語タスクの評価をサポートする。
このプラットフォームは、DA、ESA、MQMなどの標準評価プロトコルを実装しているが、新しいプロトコルのプロトタイピングを可能にする拡張性もある。
ドキュメントレベルのコンテキスト、絶対的かつコントラスト的な評価、注意チェック、ESAAI事前アノテーション、静的およびアクティブな学習ベースの割り当て戦略が特徴である。
Pearmutは、信頼性の高い人的評価を、たまに努力するのではなく、モデルの開発と診断の実践的で日常的なコンポーネントにすることができる。
関連論文リスト
- CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - BotEval: Facilitating Interactive Human Evaluation [21.99269491969255]
BotEvalは評価プロセスの一部として人間とボットのインタラクションを可能にする評価ツールキットである。
我々は、評価プロセスの一部として、人間とボットの対話を可能にすることに焦点を当てた、カスタマイズが容易でオープンソースの評価ツールキットBotEvalを開発した。
論文 参考訳(メタデータ) (2024-07-25T04:57:31Z) - InstructionCP: A fast approach to transfer Large Language Models into target language [55.2480439325792]
InsCPは命令タグをCPプロセスに統合し、新しい言語を習得する際の会話能力の喪失を防ぐ。
実験の結果,InsCPは人間のフィードバック能力から会話と強化学習を維持していることがわかった。
このアプローチでは、高品質な命令追従データを0.1億トークンしか必要とせず、それによってリソース消費が減少する。
論文 参考訳(メタデータ) (2024-05-30T15:45:13Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - An Overview on Machine Translation Evaluation [6.85316573653194]
機械翻訳(MT)はAIと開発の重要なタスクの1つとなっている。
MTの評価課題は,機械翻訳の質を評価するだけでなく,機械翻訳研究者にタイムリーなフィードバックを与えることである。
本報告は,機械翻訳評価(MTE)の略歴,MTE研究手法の分類,最先端の進展について概説する。
論文 参考訳(メタデータ) (2022-02-22T16:58:28Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。