論文の概要: Investigating Text Simplification Evaluation
- arxiv url: http://arxiv.org/abs/2107.13662v1
- Date: Wed, 28 Jul 2021 22:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:21:45.272485
- Title: Investigating Text Simplification Evaluation
- Title(参考訳): テキスト簡易化評価の検討
- Authors: Laura V\'asquez-Rodr\'iguez, Matthew Shardlow, Piotr Przyby{\l}a,
Sophia Ananiadou
- Abstract要約: 現代のテキスト単純化(TS)は、機械学習モデルを構築するための金の標準データの利用に大きく依存している。
既存の研究では、平行TSコーパスは不正確な単純化と不正確なアライメントを含むことが示されている。
評価は通常、BLEUやSARIといったメトリクスを使用して、システム出力と金の標準を比較することで行われる。
- 参考スコア(独自算出の注目度): 21.128143745540292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern text simplification (TS) heavily relies on the availability of gold
standard data to build machine learning models. However, existing studies show
that parallel TS corpora contain inaccurate simplifications and incorrect
alignments. Additionally, evaluation is usually performed by using metrics such
as BLEU or SARI to compare system output to the gold standard. A major
limitation is that these metrics do not match human judgements and the
performance on different datasets and linguistic phenomena vary greatly.
Furthermore, our research shows that the test and training subsets of parallel
datasets differ significantly. In this work, we investigate existing TS
corpora, providing new insights that will motivate the improvement of existing
state-of-the-art TS evaluation methods. Our contributions include the analysis
of TS corpora based on existing modifications used for simplification and an
empirical study on TS models performance by using better-distributed datasets.
We demonstrate that by improving the distribution of TS datasets, we can build
more robust TS models.
- Abstract(参考訳): 現代のテキスト単純化(ts)は、機械学習モデルを構築するためのゴールド標準データの利用に大きく依存している。
しかし、既存の研究では、平行TSコーパスは不正確な単純化と不正確なアライメントを含むことが示されている。
さらに、システム出力をゴールド標準と比較するためにBLEUやSARIといったメトリクスを使用して評価を行うのが一般的である。
主な制限は、これらの指標が人間の判断と一致せず、異なるデータセットや言語現象のパフォーマンスが大きく異なることである。
さらに,本研究では,並列データセットのテストおよびトレーニングサブセットが異なることを示す。
本研究では,既存のTSコーパスを調査し,既存のTS評価手法の改善を動機付ける新たな洞察を提供する。
我々の貢献は、単純化に使用される既存の修正に基づくTSコーパスの分析と、より良い分散データセットを用いてTSモデルの性能に関する実証的研究である。
TSデータセットの分布を改善することで、より堅牢なTSモデルを構築することができることを示す。
関連論文リスト
- Benchmarking Transcriptomics Foundation Models for Perturbation Analysis : one PCA still rules them all [1.507700065820919]
転写学的シークエンシングの最近の進歩は、価値ある洞察を明らかにする新しい機会を提供する。
摂動解析におけるこれらの上昇モデルの有効性をしっかり評価するためのベンチマークは行われていない。
本稿では,生物学的に動機づけた新しい評価フレームワークと摂動解析タスクの階層について述べる。
論文 参考訳(メタデータ) (2024-10-17T18:27:51Z) - Can You Rely on Your Model Evaluation? Improving Model Evaluation with
Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。
私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。
これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T10:18:44Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset [10.119929769316565]
この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
この研究は、徹底的な技術分析を通じて、TTSの最先端のモデル伝達学習能力を評価する。
その後、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオンの実験分析を行う。
論文 参考訳(メタデータ) (2023-10-08T03:08:25Z) - PartMix: Regularization Strategy to Learn Part Discovery for
Visible-Infrared Person Re-identification [76.40417061480564]
本稿では、パートベース可視赤外線人物再識別(VI-ReID)モデルに対して、PartMixと呼ばれる新しいデータ拡張手法を提案する。
部分記述子をモダリティに混合することにより、拡張サンプルを合成し、パートベースVI-ReIDモデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-04-04T05:21:23Z) - Cognitive Simplification Operations Improve Text Simplification [24.970301040693883]
本稿では,認知的アクセシビリティ領域からの知識をテキスト単純化モデルに組み込む手法を提案する。
TS学習モデルにこの帰納バイアスを加えることで、CSデータを見ることなく認知単純化に適応できることを示す。
論文 参考訳(メタデータ) (2022-11-16T10:51:03Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Meta-learning framework with applications to zero-shot time-series
forecasting [82.61728230984099]
この研究は幅広いメタラーニングフレームワークを使って肯定的な証拠を提供する。
残余接続はメタラーニング適応機構として機能する。
我々は、ソースTSデータセット上でニューラルネットワークをトレーニングし、異なるターゲットTSデータセット上で再トレーニングすることなくデプロイできることを示します。
論文 参考訳(メタデータ) (2020-02-07T16:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。