論文の概要: Catwalk: A Unified Language Model Evaluation Framework for Many Datasets
- arxiv url: http://arxiv.org/abs/2312.10253v1
- Date: Fri, 15 Dec 2023 23:11:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 17:35:07.132647
- Title: Catwalk: A Unified Language Model Evaluation Framework for Many Datasets
- Title(参考訳): catwalk: 多くのデータセットのための統一言語モデル評価フレームワーク
- Authors: Dirk Groeneveld and Anas Awadalla and Iz Beltagy and Akshita Bhagia
and Ian Magnusson and Hao Peng and Oyvind Tafjord and Pete Walsh and Kyle
Richardson and Jesse Dodge
- Abstract要約: Catwalkは、既存のNLPデータセットとモデルに統一されたインターフェースを提供する。
キャットウォークは、大規模に制御された実験を行うための障壁を著しく低くする。
- 参考スコア(独自算出の注目度): 50.75378592254184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of large language models has shifted the evaluation paradigms in
natural language processing (NLP). The community's interest has drifted towards
comparing NLP models across many tasks, domains, and datasets, often at an
extreme scale. This imposes new engineering challenges: efforts in constructing
datasets and models have been fragmented, and their formats and interfaces are
incompatible. As a result, it often takes extensive (re)implementation efforts
to make fair and controlled comparisons at scale.
Catwalk aims to address these issues. Catwalk provides a unified interface to
a broad range of existing NLP datasets and models, ranging from both canonical
supervised training and fine-tuning, to more modern paradigms like in-context
learning. Its carefully-designed abstractions allow for easy extensions to many
others. Catwalk substantially lowers the barriers to conducting controlled
experiments at scale. For example, we finetuned and evaluated over 64 models on
over 86 datasets with a single command, without writing any code. Maintained by
the AllenNLP team at the Allen Institute for Artificial Intelligence (AI2),
Catwalk is an ongoing open-source effort: https://github.com/allenai/catwalk.
- Abstract(参考訳): 大規模言語モデルの成功は自然言語処理(nlp)の評価パラダイムをシフトさせた。
コミュニティの関心は、多くのタスク、ドメイン、データセットのNLPモデルを極端な規模で比較することへと流れている。
データセットとモデルの構築への取り組みは断片化され、そのフォーマットとインターフェースは互換性がない。
結果として、公正かつ制御された比較を大規模に行うために、大規模な(再)実装作業がしばしば必要となる。
Catwalkはこれらの問題に対処することを目指している。
catwalkは、カノニカルな教師付きトレーニングと微調整から、コンテキスト内学習のようなより現代的なパラダイムまで、幅広い既存のnlpデータセットとモデルに対する統一的なインターフェースを提供する。
慎重に設計された抽象化によって、他の多くの拡張を簡単にできる。
キャットウォークは、大規模に制御された実験を行うための障壁を著しく低くする。
例えば、コードを書かずに、86以上のデータセット上の64以上のモデルを単一のコマンドで微調整し、評価しました。
Allen Institute for Artificial Intelligence (AI2)のAllenNLPチームによって管理されているCatwalkは、現在進行中のオープンソース活動である。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Placing Objects in Context via Inpainting for Out-of-distribution Segmentation [59.00092709848619]
コンテキスト内のオブジェクトの配置(POC)は、イメージにオブジェクトを現実的に追加するためのパイプラインである。
POCは任意の数のオブジェクトで任意のデータセットを拡張するために使用することができる。
本稿では,POC 生成データに基づく様々な異常セグメンテーションデータセットを提示し,最近の最先端の異常チューニング手法の性能向上を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:32:41Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - CoreLM: Coreference-aware Language Model Fine-Tuning [0.0]
我々は、現在の事前学習言語モデルのアーキテクチャを拡張した、CoreLMというファインチューニングフレームワークを提案する。
我々は、モデルの文脈空間外で利用可能な情報を作成し、計算コストのごく一部について、よりよい言語モデルをもたらす。
提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。
論文 参考訳(メタデータ) (2021-11-04T08:44:31Z) - Program Synthesis with Large Language Models [40.41120807053989]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。
合成性能はモデルサイズと対数的にスケールすることがわかった。
最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文 参考訳(メタデータ) (2021-08-16T03:57:30Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - A Data Efficient End-To-End Spoken Language Understanding Architecture [22.823732899634518]
我々は、事前訓練された外部モジュールを追加せずに、エンドツーエンドで訓練されたデータ効率システムを導入する。
提案モデルでは,小規模なトレーニングデータセットを用いて,最先端技術に対して,適切なサイズと競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-02-14T10:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。