論文の概要: ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding
- arxiv url: http://arxiv.org/abs/2305.14196v3
- Date: Sun, 17 Dec 2023 17:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:55:31.097548
- Title: ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding
- Title(参考訳): ZeroSCROLLS: 長文理解のためのゼロショットベンチマーク
- Authors: Uri Shaham and Maor Ivgi and Avia Efrat and Jonathan Berant and Omer
Levy
- Abstract要約: 我々は、長いテキスト上での自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介する。
SCROLLSベンチマークから6つのタスクを適応させ、新しい2つの情報拡散タスクを含む4つのデータセットを追加します。
クロードはChatGPTより優れており、GPT-4は最高スコアを得る。
- 参考スコア(独自算出の注目度): 86.08738156304224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ZeroSCROLLS, a zero-shot benchmark for natural language
understanding over long texts, which contains only test and small validation
sets, without training data. We adapt six tasks from the SCROLLS benchmark, and
add four new datasets, including two novel information fusing tasks, such as
aggregating the percentage of positive reviews. Using ZeroSCROLLS, we conduct a
comprehensive evaluation of both open-source and closed large language models,
finding that Claude outperforms ChatGPT, and that GPT-4 achieves the highest
average score. However, there is still room for improvement on multiple open
challenges in ZeroSCROLLS, such as aggregation tasks, where models struggle to
pass the naive baseline. As the state of the art is a moving target, we invite
researchers to evaluate their ideas on the live ZeroSCROLLS leaderboard.
- Abstract(参考訳): 我々は、テストセットと小さな検証セットのみを含む、長いテキストに対する自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介した。
scrollsベンチマークから6つのタスクを適応させ、ポジティブレビューのパーセンテージを集約するなど、2つの新しい情報融合タスクを含む4つの新しいデータセットを追加します。
ZeroSCROLLS を用いて,オープンソースおよびクローズドな大言語モデルの総合評価を行い,Claude が ChatGPT を上回り,GPT-4 が最高スコアを達成していることを確認した。
しかし、アグリゲーションタスクのようなゼロスクロールにおける複数のオープンチャレンジを改善する余地はまだ残っており、モデルが単純なベースラインを通すのに苦労している。
現状は動きのターゲットであり、ZeroSCROLLSのリーダーボード上で彼らのアイデアを評価するために研究者を招待する。
関連論文リスト
- TextSquare: Scaling up Text-Centric Visual Instruction Tuning [64.55339431760727]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Low-resource classification of mobility functioning information in
clinical sentences using large language models [0.0]
本研究は,臨床ノートから機能的情報の存在を正確に識別する,公開可能な大規模言語モデル(LLM)の能力を評価するものである。
我々は,n2c2臨床ノートから算出したモビリティNERデータセットから,1000文のバランスの取れたバイナリ分類データセットを収集した。
論文 参考訳(メタデータ) (2023-12-15T20:59:17Z) - Pretraining on the Test Set Is All You Need [6.322449198012633]
パラメータ変換器をベースとした LLM textbfphi-CTNL をプレトレーニングし、様々な学術ベンチマークで完全な結果を得る。
textbfphi-CTNLはまた、パワーロースケーリングを破り、ダウンストリーム評価ベンチマークのカナリアを正確に予測する、前例のないグラッキングのような能力を示す。
論文 参考訳(メタデータ) (2023-09-13T19:47:33Z) - Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations [97.41375480696972]
そこで,Z-ICLを提案する。Z-ICL,Z-ICLは,与えられたテスト入力に対して擬似デモを構築することでギャップを埋める新しいゼロショット方式である。
9つの分類データセットの評価は、Z-ICLが従来のゼロショット法よりも有意差で優れていたことを示している。
論文 参考訳(メタデータ) (2022-12-19T21:34:26Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - ZeroGen: Efficient Zero-shot Learning via Dataset Generation [28.454620513642034]
柔軟で効率的なゼロショート学習手法であるZeroGenについて検討する。
ゼロショットタスクが与えられた場合、まず、教師なしの方法で PLM を用いて、スクラッチからデータセットを生成する。
テキスト分類、質問応答、自然言語推論といった異なるNLPタスクの実験と分析は、ZeroGenの有効性を示している。
論文 参考訳(メタデータ) (2022-02-16T08:18:02Z) - ZeroBERTo -- Leveraging Zero-Shot Text Classification by Topic Modeling [57.80052276304937]
本稿では、教師なしクラスタリングのステップを利用して、分類タスクの前に圧縮されたデータ表現を得る新しいモデルZeroBERToを提案する。
また,ZeroBERToは,FolhaUOLデータセットのF1スコアにおいて,XLM-Rを約12%上回り,長い入力と実行時間の短縮に優れた性能を示した。
論文 参考訳(メタデータ) (2022-01-04T20:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。