論文の概要: Understanding Metrics for Paraphrasing
- arxiv url: http://arxiv.org/abs/2205.13119v1
- Date: Thu, 26 May 2022 03:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 06:13:13.087591
- Title: Understanding Metrics for Paraphrasing
- Title(参考訳): パラフレージングのメトリクスを理解する
- Authors: Omkar Patil, Rahul Singh and Tarun Joshi
- Abstract要約: 本稿では, パラフレーズの品質を, 精度, ノベルティ, フラエンシの次元に沿って測定するために, 新規な指標であるROUGE_P$を提案する。
優れたパラフレーズの生成と評価に何が必要なのかをより深く理解するために、メトリクスのレンズからのパラフレーズモデルの微調整と生成について検討する。
- 参考スコア(独自算出の注目度): 13.268278150775
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Paraphrase generation is a difficult problem. This is not only because of the
limitations in text generation capabilities but also due that to the lack of a
proper definition of what qualifies as a paraphrase and corresponding metrics
to measure how good it is. Metrics for evaluation of paraphrasing quality is an
on going research problem. Most of the existing metrics in use having been
borrowed from other tasks do not capture the complete essence of a good
paraphrase, and often fail at borderline-cases. In this work, we propose a
novel metric $ROUGE_P$ to measure the quality of paraphrases along the
dimensions of adequacy, novelty and fluency. We also provide empirical evidence
to show that the current natural language generation metrics are insufficient
to measure these desired properties of a good paraphrase. We look at paraphrase
model fine-tuning and generation from the lens of metrics to gain a deeper
understanding of what it takes to generate and evaluate a good paraphrase.
- Abstract(参考訳): パラフレーズ生成は難しい問題です。
これは、テキスト生成機能に制限があるだけでなく、パラフレーズとして適合するものとそれに対応するメトリクスの適切な定義が欠けているためでもある。
パラフレージング品質の評価基準は、進行中の研究課題である。
他のタスクから借用された既存のメトリクスのほとんどは、優れたパラフレーズの完全な本質を捉えておらず、しばしば境界線ケースで失敗する。
本研究では, パラフレーズの品質を, 精度, ノベルティ, フラレンシの次元に沿って測定する指標として, ROUGE_P$を提案する。
また,現在の自然言語生成指標が不十分であることを示す実証的証拠も提供し,これらの望ましいパラフレーズの望ましい特性を計測する。
優れたパラフレーズの生成と評価に何が必要なのかをより深く理解するために、メトリクスのレンズからのパラフレーズモデルの微調整と生成について検討する。
関連論文リスト
- Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Improving Metrics for Speech Translation [1.2891210250935146]
本稿では,パラレルパラフレージング(textPara_textboth$)について紹介する。
提案手法が一般的なメトリクスに適用された場合,人間の品質知覚との相関性を大幅に改善できることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T11:01:38Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Embarrassingly Easy Document-Level MT Metrics: How to Convert Any
Pretrained Metric Into a Document-Level Metric [15.646714712131148]
文書レベルでコンテキストを組み込むための事前学習メトリクスを拡張する手法を提案する。
その結果, 実験条件の約85%において, 文章レベルの指標よりも高い結果が得られた。
我々の実験結果は、私たちの最初の仮説を支持し、メトリクスの単純な拡張によってコンテキストを活用できることを示す。
論文 参考訳(メタデータ) (2022-09-27T19:42:22Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Revisiting the Evaluation Metrics of Paraphrase Generation [35.6803390044542]
多くの既存のパラフレーズ生成モデルは、生成されたパラフレーズを評価するために参照ベースのメトリクスを使用する。
本稿では、生成されたパラフレーズの品質を反映できる参照フリーメトリックであるBBScoreを提案する。
論文 参考訳(メタデータ) (2022-02-17T07:18:54Z) - InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文 参考訳(メタデータ) (2021-12-02T20:09:29Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。