論文の概要: Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference?
- arxiv url: http://arxiv.org/abs/2312.01500v1
- Date: Sun, 3 Dec 2023 20:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:08:51.047418
- Title: Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference?
- Title(参考訳): 文レベル頻度評価のための教師なしアプローチ:本当に参照は必要か?
- Authors: Gopichand Kanumolu, Lokesh Madasu, Pavan Baswani, Ananya Mukherjee,
Manish Shrivastava
- Abstract要約: 本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
- 参考スコア(独自算出の注目度): 3.2528685897001455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fluency is a crucial goal of all Natural Language Generation (NLG) systems.
Widely used automatic evaluation metrics fall short in capturing the fluency of
machine-generated text. Assessing the fluency of NLG systems poses a challenge
since these models are not limited to simply reusing words from the input but
may also generate abstractions. Existing reference-based fluency evaluations,
such as word overlap measures, often exhibit weak correlations with human
judgments. This paper adapts an existing unsupervised technique for measuring
text fluency without the need for any reference. Our approach leverages various
word embeddings and trains language models using Recurrent Neural Network (RNN)
architectures. We also experiment with other available multilingual Language
Models (LMs). To assess the performance of the models, we conduct a comparative
analysis across 10 Indic languages, correlating the obtained fluency scores
with human judgments. Our code and human-annotated benchmark test-set for
fluency is available at
https://github.com/AnanyaCoder/TextFluencyForIndicLanaguges.
- Abstract(参考訳): フルーエンシーは、すべての自然言語生成(NLG)システムにおいて重要な目標である。
広く使われている自動評価指標は、機械生成テキストの流速を捉えるのに不足している。
NLGシステムの流布度を評価することは、これらのモデルが単に入力から単語を再利用するだけでなく、抽象化も生成できるため、課題となる。
単語重複測定のような既存の基準に基づく流速評価は、しばしば人間の判断と弱い相関を示す。
本稿では,既存の教師なし手法を用いて,参照を必要とせずにテキストフラレンシを計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
また、他の利用可能な多言語言語モデル(LM)についても実験を行った。
モデルの性能を評価するために, 得られたフルーエンシースコアと人間の判断を関連付けて, 10のindic言語の比較分析を行った。
私たちのコードと人手による流用テストセットはhttps://github.com/AnanyaCoder/TextFluencyForIndicLanagugesで公開されています。
関連論文リスト
- Few-Shot Detection of Machine-Generated Text using Style Representations [4.326503887981912]
人間の文章を巧みに模倣する言語モデルは、虐待のかなりのリスクを負う。
そこで本研究では,人間が作成したテキストから推定した書体スタイルの表現を活用することを提案する。
また,人間と機械作家の区別にも有効であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T17:26:51Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Language Model Augmented Relevance Score [2.8314622515446835]
Language Model Augmented Relevance Score (MARS)は、NLG評価のための新しい文脈対応メトリックである。
MARSは、強化学習によってガイドされる既製の言語モデルを使用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成する。
論文 参考訳(メタデータ) (2021-08-19T03:59:23Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。