論文の概要: Integration of LLM Quality Assurance into an NLG System
- arxiv url: http://arxiv.org/abs/2501.16078v1
- Date: Mon, 27 Jan 2025 14:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:08.507237
- Title: Integration of LLM Quality Assurance into an NLG System
- Title(参考訳): LLMの品質保証のNLGシステムへの統合
- Authors: Ching-Yi Chen, Johanna Heininger, Adela Schneider, Christian Eckard, Andreas Madsack, Robert Weißgraeber,
- Abstract要約: 本稿では,Large Language Model (LLM) を用いて品質保証 (QA) の構成要素として文法とスペル補正を行うシステムを提案する。
許容範囲の修正が可能であることを示す。
- 参考スコア(独自算出の注目度): 0.04947896909360667
- License:
- Abstract: In this paper, we present a system that uses a Large Language Model (LLM) to perform grammar and spelling correction as a component of Quality Assurance (QA) for texts generated by NLG systems, which is important for text production in real-world scenarios. Evaluating the results of the system on work-in-progress sports news texts in three languages, we show that it is able to deliver acceptable corrections.
- Abstract(参考訳): 本稿では,NLGシステムによって生成されるテキストの品質保証 (QA) の構成要素として文法とスペル補正を行うために,Large Language Model (LLM) を用いたシステムを提案する。
作業中のスポーツニュースのテキストを3言語で評価した結果,許容範囲の修正が可能であることがわかった。
関連論文リスト
- SpeechQE: Estimating the Quality of Direct Speech Translation [23.83384136789891]
音声翻訳(SpeechQE)の品質評価のタスクを定式化し、ベンチマークを構築し、カスケードアーキテクチャとエンドツーエンドアーキテクチャに基づくシステム群を評価する。
提案手法は, ケースドシステムにおけるテキストを対象とした品質推定システムよりも, 直接音声翻訳の品質を推定するのに適していると考えられる。
論文 参考訳(メタデータ) (2024-10-28T19:50:04Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - QEMind: Alibaba's Submission to the WMT21 Quality Estimation Shared Task [24.668012925628968]
我々は、WMT 2021 QE共有タスクに提出する。
テキストQEMindというQEシステムを構築するための翻訳の不確実性を評価するために有用な機能をいくつか提案する。
我々は、WMT 2020のダイレクトアセスメントQEタスクにおいて、我々の多言語システムが最高のシステムより優れていることを示す。
論文 参考訳(メタデータ) (2021-12-30T02:27:29Z) - Ensemble Fine-tuned mBERT for Translation Quality Estimation [0.0]
本稿では,WMT 2021 QE共有タスクの提出について論じる。
提案システムは多言語BERT(mBERT)に基づく回帰モデルのアンサンブルである。
ピアソンの相関に匹敵する性能を示し、いくつかの言語対に対してMAE/RMSEのベースラインシステムを破る。
論文 参考訳(メタデータ) (2021-09-08T20:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。