論文の概要: E2E Refined Dataset
- arxiv url: http://arxiv.org/abs/2211.00513v1
- Date: Tue, 1 Nov 2022 15:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:02:29.372888
- Title: E2E Refined Dataset
- Title(参考訳): E2E 精製データセット
- Authors: Keisuke Toyama, Katsuhito Sudoh, Satoshi Nakamura
- Abstract要約: よく知られたMR-to-text E2Eデータセットには、多くの削除/挿入/置換エラーがある。
我々は、オリジナルのE2Eデータセットを洗練されたデータセットに変換する洗練されたデータセットといくつかのピソンプログラムを開発した。
- 参考スコア(独自算出の注目度): 16.630616128169372
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although the well-known MR-to-text E2E dataset has been used by many
researchers, its MR-text pairs include many deletion/insertion/substitution
errors. Since such errors affect the quality of MR-to-text systems, they must
be fixed as much as possible. Therefore, we developed a refined dataset and
some python programs that convert the original E2E dataset into a refined
dataset.
- Abstract(参考訳): MR-to-text E2Eデータセットは多くの研究者によって使用されているが、MR-textペアには多くの削除/挿入/置換エラーが含まれている。
このようなエラーはMR-to-textシステムの品質に影響するため、可能な限り修正する必要がある。
そこで我々は,e2eデータセットを洗練されたデータセットに変換する改良データセットとpythonプログラムを開発した。
関連論文リスト
- Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - LARD: Large-scale Artificial Disfluency Generation [0.0]
複雑で現実的な人工的不一致を少ない労力で生成する手法である LARD を提案する。
提案手法は, 繰り返し, 置換, 再起動の3種類の相反を処理できる。
4つの異なるタスクで使用できる、分散を持つ新しい大規模データセットをリリースする。
論文 参考訳(メタデータ) (2022-01-13T16:02:36Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - FCMI: Feature Correlation based Missing Data Imputation [0.0]
本稿では,FCMIと呼ばれる相関関係に基づいて,データセットの欠落を補足する効率的な手法を提案する。
提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いて回帰モデルを構築する。
分類データセットと回帰データセットの両方で行った実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2021-06-26T13:35:33Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z) - Incorrect Data in the Widely Used Inside Airbnb Dataset [0.0]
Airbnb(IA)内部では、Airbnb.comのユーザが投稿した場所やレビューからデータを収集する。
このノートはデータセットを調べ、データセットに追加された誤ったデータの問題を説明します。
発見は、Airbnbが実装した新機能によって、不正なデータが発生したことを示している。
論文 参考訳(メタデータ) (2020-07-06T19:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。