論文の概要: DataCLUE: A Benchmark Suite for Data-centric NLP
- arxiv url: http://arxiv.org/abs/2111.08647v2
- Date: Wed, 17 Nov 2021 16:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 12:03:52.652756
- Title: DataCLUE: A Benchmark Suite for Data-centric NLP
- Title(参考訳): DataCLUE: データ中心NLPのためのベンチマークスイート
- Authors: Liang Xu, Jiacheng Liu, Xiang Pan, Xiaojing Lu, Xiaofeng Hou
- Abstract要約: データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。
NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。
我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの硬さを示す。
- 参考スコア(独自算出の注目度): 10.97174994617386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-centric AI has recently proven to be more effective and
high-performance, while traditional model-centric AI delivers fewer and fewer
benefits. It emphasizes improving the quality of datasets to achieve better
model performance. This field has significant potential because of its great
practicability and getting more and more attention. However, we have not seen
significant research progress in this field, especially in NLP. We propose
DataCLUE, which is the first Data-Centric benchmark applied in NLP field. We
also provide three simple but effective baselines to foster research in this
field (improve Macro-F1 up to 5.7% point). In addition, we conduct
comprehensive experiments with human annotators and show the hardness of
DataCLUE. We also try an advanced method: the forgetting informed bootstrapping
label correction method. All the resources related to DataCLUE, including
datasets, toolkit, leaderboard, and baselines, is available online at
https://github.com/CLUEbenchmark/DataCLUE
- Abstract(参考訳): データ中心のAIは、最近より効率的でハイパフォーマンスであることが証明され、一方、従来のモデル中心のAIは、より少ないメリットを提供する。
モデルパフォーマンスを改善するためにデータセットの品質を向上させることを強調する。
この分野は、その優れた実用性とより多くの注目を集めているため、大きな可能性を秘めている。
しかし、この分野、特にNLPでは大きな研究の進展は見られていない。
NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。
また、この分野での研究を促進するために、単純だが効果的な3つのベースラインを提供する(マクロF1を5.7%まで向上させる)。
さらに,人間のアノテーションを用いた包括的実験を行い,DataCLUEの硬さを示す。
また, 自己紹介型ラベル修正手法であるletinging informed bootstrapping label correction法も試した。
DataCLUEに関連するすべてのリソース、データセット、ツールキット、リーダーボード、ベースラインはhttps://github.com/CLUEbenchmark/DataCLUEで公開されている。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Rethinking the Effectiveness of Graph Classification Datasets in Benchmarks for Assessing GNNs [7.407592553310068]
本稿では,単純な手法とGNN間の性能差を調べるための,公正なベンチマークフレームワークに基づく経験的プロトコルを提案する。
また,データセットの複雑性とモデル性能を両立させることにより,データセットの有効性を定量化する新しい指標を提案する。
我々の発見は、ベンチマークデータセットの現在の理解に光を当て、新しいプラットフォームは、グラフ分類ベンチマークの将来的な進化を後押しする可能性がある。
論文 参考訳(メタデータ) (2024-07-06T08:33:23Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Simplex Autoencoders [1.3960152426268768]
本稿では,オートエンコーダの潜伏空間を単純な表現としてモデル化し,混合モデルの成分数を決定する新しい手法を提案する。
合成データセットに対する我々のアプローチを評価し,その性能を3つのベンチマークデータセットで実証する。
論文 参考訳(メタデータ) (2023-01-16T15:57:03Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning [27.871007011425775]
本稿では、生成モデルと分類器を併用してラベル付きデータを生成する新しいデータ拡張手法FlipDAを提案する。
実験の結果、FlipDAは有効性と堅牢性の間の良好なトレードオフを達成し、多くのタスクを大幅に改善する一方で、他のタスクに悪影響を及ぼさないことがわかった。
論文 参考訳(メタデータ) (2021-08-13T17:51:31Z) - An Empirical Survey of Data Augmentation for Limited Data Learning in
NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。
NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。
限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文 参考訳(メタデータ) (2021-06-14T15:27:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。