論文の概要: Scarecrow: A Framework for Scrutinizing Machine Text
- arxiv url: http://arxiv.org/abs/2107.01294v1
- Date: Fri, 2 Jul 2021 22:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 12:21:44.086596
- Title: Scarecrow: A Framework for Scrutinizing Machine Text
- Title(参考訳): Scarecrow: マシンテキストの精査のためのフレームワーク
- Authors: Yao Dou, Maxwell Forbes, Rik Koncel-Kedziorski, Noah A.Smith, Yejin
Choi
- Abstract要約: 我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
- 参考スコア(独自算出の注目度): 69.26985439191151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural text generation systems can produce remarkably fluent and
grammatical texts. While earlier language models suffered from repetition and
syntactic errors, the errors made by contemporary models are often semantic,
narrative, or discourse failures.
To facilitate research of these complex error types, we introduce a new
structured, crowdsourced error annotation schema called Scarecrow. The error
categories used in Scarecrow -- such as redundancy, commonsense errors, and
incoherence -- were identified by combining expert analysis with several pilot
rounds of ontology-free crowd annotation to arrive at a schema which covers the
error phenomena found in real machine generated text.
We use Scarecrow to collect 13k annotations of 1.3k human and machine
generate paragraphs of English language news text, amounting to over 41k spans
each labeled with its error category, severity, a natural language explanation,
and antecedent span (where relevant). We collect annotations for text generated
by state-of-the-art systems with varying known performance levels, from GPT-2
Small through the largest GPT-3. We isolate several factors for detailed
analysis, including parameter count, training data, and decoding technique. Our
results show both expected and surprising differences across these settings.
These findings demonstrate the value of Scarecrow annotations in the assessment
of current and future text generation systems. We release our complete
annotation toolkit and dataset at https://yao-dou.github.io/scarecrow/.
- Abstract(参考訳): 現代のニューラルテキスト生成システムは、驚くほど流動的で文法的なテキストを生成することができる。
初期の言語モデルは反復と構文上の誤りに苦しんだが、現代のモデルによる誤りはしばしば意味的、物語的、あるいは談話的失敗である。
これらの複雑なエラータイプの研究を容易にするために、Scarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowで使用されるエラーカテゴリ(冗長性、コモンセンスエラー、不整合など)は、専門家分析とオントロジーのないクラウドアノテーションのパイロットラウンドを組み合わせて、実際のマシン生成テキストで見られるエラー現象をカバーするスキーマに到達することで特定された。
我々は、Scarecrowを使って1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集し、それぞれ41k以上のスパンにエラーカテゴリ、重大さ、自然言語の説明、先行スパン(関連する部分)をラベル付けした。
我々は、GPT-2 Smallから最大のGPT-3まで、様々なパフォーマンスレベルを持つ最先端システムによって生成されたテキストのアノテーションを収集する。
パラメータ数,トレーニングデータ,復号化技術など,詳細な解析のためのいくつかの因子を分離した。
以上の結果から,これらの設定の相違点が期待できる。
これらの結果から,現在および将来のテキスト生成システムの評価において,カカシアノテーションの価値が示された。
私たちは完全なアノテーションツールキットとデータセットをhttps://yao-dou.github.io/scarecrow/でリリースしています。
関連論文リスト
- Harlequin: Color-driven Generation of Synthetic Data for Referring Expression Comprehension [4.164728134421114]
Referring Expression(REC)は、自然言語表現によってシーン内の特定のオブジェクトを識別することを目的としており、視覚言語理解において重要なトピックである。
このタスクの最先端のメソッドは、一般的に高価で手動でラベル付けされたアノテーションを必要とするディープラーニングに基づいている。
テキストと視覚の両方を考慮したRECタスクのための人工データを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T09:08:36Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Neural Text Generation with Artificial Negative Examples [7.187858820534111]
強化学習フレームワークでテキスト生成モデルを訓練することにより,任意のタイプのエラーを抑制することを提案する。
我々は、目標となるタイプのエラーを含む参照と文を識別できる訓練可能な報酬関数を使用する。
実験の結果,生成誤差の抑制と2つの機械翻訳と2つの画像キャプションタスクの大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2020-12-28T07:25:10Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。