論文の概要: CATER: Leveraging LLM to Pioneer a Multidimensional, Reference-Independent Paradigm in Translation Quality Evaluation
- arxiv url: http://arxiv.org/abs/2412.11261v1
- Date: Sun, 15 Dec 2024 17:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:43.758523
- Title: CATER: Leveraging LLM to Pioneer a Multidimensional, Reference-Independent Paradigm in Translation Quality Evaluation
- Title(参考訳): CATER:翻訳品質評価における多次元参照非依存パラダイムのパイオニアへの応用
- Authors: Kurando IIDA, Kenjiro MIMURA,
- Abstract要約: Comprehensive AI-assisted Translation Edit Ratio (CATER)は、機械翻訳(MT)の品質を評価するための新しいフレームワークである。
大きな言語モデル(LLM)は、慎重に設計されたプロンプトベースのプロトコルによって使用される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces the Comprehensive AI-assisted Translation Edit Ratio (CATER), a novel and fully prompt-driven framework for evaluating machine translation (MT) quality. Leveraging large language models (LLMs) via a carefully designed prompt-based protocol, CATER expands beyond traditional reference-bound metrics, offering a multidimensional, reference-independent evaluation that addresses linguistic accuracy, semantic fidelity, contextual coherence, stylistic appropriateness, and information completeness. CATER's unique advantage lies in its immediate implementability: by providing the source and target texts along with a standardized prompt, an LLM can rapidly identify errors, quantify edit effort, and produce category-level and overall scores. This approach eliminates the need for pre-computed references or domain-specific resources, enabling instant adaptation to diverse languages, genres, and user priorities through adjustable weights and prompt modifications. CATER's LLM-enabled strategy supports more nuanced assessments, capturing phenomena such as subtle omissions, hallucinations, and discourse-level shifts that increasingly challenge contemporary MT systems. By uniting the conceptual rigor of frameworks like MQM and DQF with the scalability and flexibility of LLM-based evaluation, CATER emerges as a valuable tool for researchers, developers, and professional translators worldwide. The framework and example prompts are openly available, encouraging community-driven refinement and further empirical validation.
- Abstract(参考訳): 本稿では,機械翻訳(MT)の品質を評価するための,新しい,かつ完全にプロンプト駆動のフレームワークである,包括的AI支援翻訳編集比(CATER)について紹介する。
大きな言語モデル(LLM)を慎重に設計されたプロンプトベースのプロトコルを通じて活用することにより、CATERは従来の基準付きメトリクスを超えて、言語的正確性、意味的忠実性、文脈的コヒーレンス、スタイル的適切性、情報完全性に対処する多次元の参照非依存評価を提供する。
ソースとターゲットのテキストと標準化されたプロンプトを提供することで、LCMはエラーを迅速に識別し、編集作業を定量化し、カテゴリレベルと全体的なスコアを生成することができる。
このアプローチは、事前計算された参照やドメイン固有のリソースの必要性を排除し、調整可能な重み付けと迅速な修正を通じて、多様な言語、ジャンル、ユーザの優先順位への即時適応を可能にする。
CATERのLCM対応戦略はより微妙な評価をサポートし、微妙な省略、幻覚、現代のMTシステムに挑戦する談話レベルのシフトなどの現象を捉えている。
MQMやDQFといったフレームワークの概念的な厳密さとLLMに基づく評価のスケーラビリティと柔軟性を結びつけることで、CATERは世界中の研究者、開発者、専門家にとって価値のあるツールとして現れます。
フレームワークとサンプルプロンプトは公開されており、コミュニティ主導の洗練とさらなる実証的検証を促進する。
関連論文リスト
- When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text Generation [56.82274763974443]
ICATは、長文テキスト生成における多様な事実情報のカバレッジを測定するための評価フレームワークである。
原子の事実的クレームと出力で提示されるであろう様々な側面のアライメントを計算する。
私たちのフレームワークは、多様性とカバレッジの解釈可能かつきめ細かな分析を提供します。
論文 参考訳(メタデータ) (2025-01-07T05:43:23Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Machine Translation with Large Language Models: Prompt Engineering for
Persian, English, and Russian Directions [0.0]
生成型大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、例外的な習熟性を示している。
我々は,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせについて調査を行った。
論文 参考訳(メタデータ) (2024-01-16T15:16:34Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。