Fugu-MT 論文翻訳(概要): Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences

論文の概要: Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences

arxiv url: http://arxiv.org/abs/2404.08666v1
Date: Sun, 31 Mar 2024 15:13:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-21 20:04:31.242340
Title: Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences
Title（参考訳）: 2022年ACLおよびEMNLP会議におけるデータセットの動向
Authors: Jesse Atuhurra, Hidetaka Kamigaito,
Abstract要約: トランスフォーマーは、事前訓練された大規模言語モデル(PLM)を生んだ。高品質なデータセットの必要性から、NLP研究者は、特定のニーズを満たす新しいデータセットの作成を継続している。この研究は、これらのデータセットに含まれるトレンドと洞察を明らかにすることを目的としている。
参考スコア（独自算出の注目度）: 16.66079305798581
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language processing (NLP) has grown significantly since the advent of the Transformer architecture. Transformers have given birth to pre-trained large language models (PLMs). There has been tremendous improvement in the performance of NLP systems across several tasks. NLP systems are on par or, in some cases, better than humans at accomplishing specific tasks. However, it remains the norm that \emph{better quality datasets at the time of pretraining enable PLMs to achieve better performance, regardless of the task.} The need to have quality datasets has prompted NLP researchers to continue creating new datasets to satisfy particular needs. For example, the two top NLP conferences, ACL and EMNLP, accepted ninety-two papers in 2022, introducing new datasets. This work aims to uncover the trends and insights mined within these datasets. Moreover, we provide valuable suggestions to researchers interested in curating datasets in the future.
Abstract（参考訳）: 自然言語処理(NLP)はTransformerアーキテクチャの出現以来、大きく成長している。トランスフォーマーは、事前訓練された大規模言語モデル(PLM)を生んだ。いくつかのタスクでNLPシステムの性能が大幅に向上した。 NLPシステムは、特定のタスクを達成する上で人間よりも優れている場合もあります。しかしながら、プレトレーニング時の \emph{better 品質データセットは、タスクに関わらず PLM がより良いパフォーマンスを達成することができるという規範は、依然として残っている。品質データセットの必要性は、NLP研究者が特定のニーズを満たすために新しいデータセットを作成し続けるきっかけとなった。例えば、上位2つのNLPカンファレンスであるACLとEMNLPは、2022年に92の論文を受け入れ、新しいデータセットを導入した。この研究は、これらのデータセットに含まれるトレンドと洞察を明らかにすることを目的としている。さらに,将来,データセットのキュレーションに関心のある研究者に対して,貴重な提案を行う。

関連論文リスト

TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-30T15:45:28Z)
Language Models as Continuous Self-Evolving Data Engineers [32.67875951851165]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。従来のトレーニングアプローチは、専門家ラベル付きデータに大きく依存しています。我々はLANCEという新しいパラダイムを提案し、LLMはデータの自動生成、クリーニング、レビュー、注釈付けによって自らを訓練することができる。
論文参考訳（メタデータ） (2024-12-19T18:28:41Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs [6.847114270274019]
下流のNLPモデルのトレーニングに使用できるラベル付きデータを生成する方法を示す。 NLP生成のためのオープンソースのPythonツールキットであるFabricatorを紹介する。
論文参考訳（メタデータ） (2023-09-18T08:45:47Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
WANLI: Worker and AI Collaboration for Natural Language Inference Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文参考訳（メタデータ） (2022-01-16T03:13:49Z)
An Empirical Survey of Data Augmentation for Limited Data Learning in NLP [88.65488361532158]
豊富なデータへの依存は、低リソース設定や新しいタスクにNLPモデルを適用するのを防ぐ。 NLPにおけるデータ効率を改善する手段として,データ拡張手法が検討されている。限定ラベル付きデータ設定におけるNLPのデータ拡張に関する最近の進展を実証的に調査する。
論文参考訳（メタデータ） (2021-06-14T15:27:22Z)
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures [0.0]
自然言語処理モデルは言語的および意味的なタスクにおいて驚くべき成功を収めた。最近のNLPアーキテクチャは、中程度のモデルサイズを達成するために、トランスファーラーニング、プルーニング、量子化、知識蒸留の概念を活用している。知識レトリバーは、より大きなデータベースのコーパスから、より効率と正確さで明示的なデータドキュメントを抽出するために構築されている。
論文参考訳（メタデータ） (2021-03-23T22:38:20Z)
DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。 SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文参考訳（メタデータ） (2020-05-02T12:34:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。