論文の概要: What Makes a Good Paraphrase: Do Automated Evaluations Work?
- arxiv url: http://arxiv.org/abs/2307.14818v1
- Date: Thu, 27 Jul 2023 12:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:41:43.243458
- Title: What Makes a Good Paraphrase: Do Automated Evaluations Work?
- Title(参考訳): よい言葉は何か - 自動評価は機能するのか?
- Authors: Anna Moskvina, Bhushan Kotnis, Chris Catacata, Michael Janz, Nasrin
Saef
- Abstract要約: 容認できる言い回しとなるために、その単語はどのくらい違うべきなのか?
パラフレーズの品質を評価するために、自動メトリクスのみを使用できますか?
我々は,ドイツ語データセットの実験を行い,自動的および専門的な言語評価を行うことにより,これらの疑問に答えようとしている。
- 参考スコア(独自算出の注目度): 1.8199326045904993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paraphrasing is the task of expressing an essential idea or meaning in
different words. But how different should the words be in order to be
considered an acceptable paraphrase? And can we exclusively use automated
metrics to evaluate the quality of a paraphrase? We attempt to answer these
questions by conducting experiments on a German data set and performing
automatic and expert linguistic evaluation.
- Abstract(参考訳): パラフレージング(paraphrasing)とは、概念や意味を異なる言葉で表現する作業である。
しかし、受け入れられる言い回しと見なすには、どのぐらい異なるべきなのか?
パラフレーズの品質を評価するために、自動メトリクスのみを使用できるのでしょうか?
我々は,ドイツ語データセットの実験を行い,自動的および専門的な言語評価を行うことにより,これらの疑問に答えようとしている。
関連論文リスト
- Task-Oriented Paraphrase Analytics [34.95500212742163]
パラフレーズ化は未定義のタスクであるため、"paraphrasing"という用語は異なる特徴を持つテキスト変換タスクをカバーしている。
本稿では,25のパラフレージング(サブタスク)を組織化する分類法を提案する。
論文 参考訳(メタデータ) (2024-03-26T10:14:12Z) - Benchmarking Evaluation Metrics for Code-Switching Automatic Speech
Recognition [19.763431520942028]
本研究では,人間の判断によるコードスイッチング音声認識仮説のベンチマークデータセットを開発する。
自動仮説の最小化のための明確なガイドラインを定義する。
我々は、アラビア語/英語の方言音声におけるコードスイッチング音声認識結果の人間受容のための最初のコーパスをリリースする。
論文 参考訳(メタデータ) (2022-11-22T08:14:07Z) - Understanding Metrics for Paraphrasing [13.268278150775]
本稿では, パラフレーズの品質を, 精度, ノベルティ, フラエンシの次元に沿って測定するために, 新規な指標であるROUGE_P$を提案する。
優れたパラフレーズの生成と評価に何が必要なのかをより深く理解するために、メトリクスのレンズからのパラフレーズモデルの微調整と生成について検討する。
論文 参考訳(メタデータ) (2022-05-26T03:03:16Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - User Response and Sentiment Prediction for Automatic Dialogue Evaluation [69.11124655437902]
本稿では,次のユーザ発話の感情をターンレベル評価やダイアログレベル評価に利用することを提案する。
実験により,本モデルによる音声対話データセットと音声対話データセットの両方において,既存の自動評価指標よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-16T22:19:17Z) - Improving Paraphrase Detection with the Adversarial Paraphrasing Task [0.0]
パラフレーズデータセットは現在、単語の重複と構文に基づくパラフレーズの感覚に依存している。
パラフレーズ識別のための新しいデータセット生成法: 逆パラフレーズ処理タスク(APT)について紹介する。
APTは参加者に意味論的に等価(相互に意味的)であるが、語彙的にも構文的にも異なるパラフレーズを生成するよう要求する。
論文 参考訳(メタデータ) (2021-06-14T18:15:20Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。