論文の概要: TrueTeacher: Learning Factual Consistency Evaluation with Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.11171v3
- Date: Wed, 18 Oct 2023 19:16:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 11:44:39.752546
- Title: TrueTeacher: Learning Factual Consistency Evaluation with Large Language
Models
- Title(参考訳): TrueTeacher: 大規模言語モデルによる現実的一貫性評価の学習
- Authors: Zorik Gekhman and Jonathan Herzig and Roee Aharoni and Chen Elkind and
Idan Szpektor
- Abstract要約: 本稿では,多種多様なモデル生成要約を注釈付けして合成データを生成する方法であるTrueTeacherを紹介する。
以前の作業とは異なり、TrueTeacherは人間が書いた要約に頼らず、本質的に多言語である。
- 参考スコア(独自算出の注目度): 20.09470051458651
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Factual consistency evaluation is often conducted using Natural Language
Inference (NLI) models, yet these models exhibit limited success in evaluating
summaries. Previous work improved such models with synthetic training data.
However, the data is typically based on perturbed human-written summaries,
which often differ in their characteristics from real model-generated summaries
and have limited coverage of possible factual errors. Alternatively, large
language models (LLMs) have recently shown promising results in directly
evaluating generative tasks, but are too computationally expensive for
practical use. Motivated by these limitations, we introduce TrueTeacher, a
method for generating synthetic data by annotating diverse model-generated
summaries using a LLM. Unlike prior work, TrueTeacher does not rely on
human-written summaries, and is multilingual by nature. Experiments on the TRUE
benchmark show that a student model trained using our data, substantially
outperforms both the state-of-the-art model with similar capacity, and the LLM
teacher. In a systematic study, we compare TrueTeacher to existing synthetic
data generation methods and demonstrate its superiority and robustness to
domain-shift. We also show that our method generalizes to multilingual
scenarios. Lastly, we release our large scale synthetic dataset (1.4M
examples), generated using TrueTeacher, and a checkpoint trained on this data.
- Abstract(参考訳): 事実整合性評価は自然言語推論(nli)モデルを用いて行われることが多いが、これらのモデルは要約の評価に限定的な成功を示している。
以前の作業は、合成トレーニングデータでそのようなモデルを改善した。
しかし、データは典型的には、乱れた人書きの要約に基づいており、実際のモデル生成の要約と特徴が異なることが多く、事実の誤りをカバーできる範囲が限られている。
あるいは、最近、大言語モデル(llm)は生成的タスクを直接評価する有望な結果を示したが、実用には計算コストが高すぎる。
そこで我々は,LLMを用いた多種多様なモデル生成要約を注釈付けして合成データを生成するTrueTeacherを紹介した。
以前の作業とは異なり、TrueTeacherは人間が書いた要約に頼らず、本質的に多言語である。
TRUEベンチマークの実験では、我々のデータを用いて訓練された学生モデルが、同等の能力で最先端のモデルとLLMの教師の両方を著しく上回っていることが示されている。
本研究では,TrueTeacherを既存の合成データ生成手法と比較し,その優位性とドメインシフトに対する堅牢性を示す。
また,本手法が多言語シナリオに一般化することを示す。
最後に、TrueTeacherを用いて生成された大規模合成データセット(1.4M例)と、このデータに基づいてトレーニングされたチェックポイントをリリースする。
関連論文リスト
- Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - On the Evaluation of Commit Message Generation Models: An Experimental
Study [33.19314967188712]
コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。
コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。
本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
論文 参考訳(メタデータ) (2021-07-12T12:38:02Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。