論文の概要: RAFT: A Real-World Few-Shot Text Classification Benchmark
- arxiv url: http://arxiv.org/abs/2109.14076v1
- Date: Tue, 28 Sep 2021 22:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 15:04:39.886967
- Title: RAFT: A Real-World Few-Shot Text Classification Benchmark
- Title(参考訳): RAFT: 実世界のFew-Shotテキスト分類ベンチマーク
- Authors: Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham,
C. Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier,
Michael Noetel, Andreas Stuhlm\"uller
- Abstract要約: RAFTベンチマークは自然発生タスクに焦点を当て、デプロイを反映する評価設定を使用する。
人間のベースラインは、一部の分類タスクが専門家でない人間にとって難しいことを示している。
RAFTデータセットとリーダーボードは、どのモデルの改善が現実の利益をもたらすかを追跡する。
- 参考スコア(独自算出の注目度): 0.9303634856460373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained language models have shown promise for few-shot learning,
completing text-based tasks given only a few task-specific examples. Will
models soon solve classification tasks that have so far been reserved for human
research assistants? Existing benchmarks are not designed to measure progress
in applied settings, and so don't directly answer this question. The RAFT
benchmark (Real-world Annotated Few-shot Tasks) focuses on naturally occurring
tasks and uses an evaluation setup that mirrors deployment. Baseline
evaluations on RAFT reveal areas current techniques struggle with: reasoning
over long texts and tasks with many classes. Human baselines show that some
classification tasks are difficult for non-expert humans, reflecting that
real-world value sometimes depends on domain expertise. Yet even non-expert
human baseline F1 scores exceed GPT-3 by an average of 0.11. The RAFT datasets
and leaderboard will track which model improvements translate into real-world
benefits at https://raft.elicit.org .
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、いくつかのタスク固有の例だけを与えられたテキストベースのタスクを完了し、数ショットの学習を約束している。
モデルでは、これまで人間の研究アシスタントに予約されていた分類タスクを、すぐに解決するのか?
既存のベンチマークは、適用された設定の進捗を測定するように設計されていません。
RAFTベンチマーク(Real-world Annotated Few-shot Tasks)は自然に発生するタスクに焦点を当て、デプロイを反映する評価設定を使用する。
RAFTのベースライン評価では、多くのクラスで長いテキストやタスクを推論するといった、現在のテクニックが苦労している領域を明らかにしている。
人間の基準は、一部の分類タスクは非専門家にとって難しいことを示しており、実世界の価値は時々ドメインの専門知識に依存する。
しかし、熟練していない人間のF1スコアでさえ平均0.11のGPT-3を超えている。
RAFTデータセットとリーダーボードは、どのモデルの改善が実際の利益に変換されるかを追跡する。
関連論文リスト
- Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - IMO: Greedy Layer-Wise Sparse Representation Learning for Out-of-Distribution Text Classification with Pre-trained Models [56.10157988449818]
本研究は,モデルが1つのソースドメイン上でトレーニングされ,トレーニング中に見つからない複数のターゲットドメイン上でテストされる領域一般化の特定の問題に焦点を当てる。
Invariant features Masks for Out-of-Distribution text classification, to achieve OOD generalization by learning invariant features。
論文 参考訳(メタデータ) (2024-04-21T02:15:59Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Rationale-Guided Few-Shot Classification to Detect Abusive Language [5.977278650516324]
乱用言語検出のためのRGFS(Rationale-Guided Few-Shot Classification)を提案する。
2つの理性統合BERTアーキテクチャ(RGFSモデル)を導入し、5つの異なる乱用言語データセット上でシステムを評価する。
論文 参考訳(メタデータ) (2022-11-30T14:47:14Z) - FETA: Towards Specializing Foundation Models for Expert Task
Applications [49.57393504125937]
ファンデーションモデル(FM)は、ゼロショット学習、高忠実度データ合成、ドメインの一般化など、前例のない機能を示した。
この論文では、FMは、まだ専門家のタスクにおいて、出来の悪いパフォーマンスを保っていることを示します。
本稿では,FMに技術資料の理解を促すことを目的として,その第1のFETAベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-08T08:47:57Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。