論文の概要: Understanding BLOOM: An empirical study on diverse NLP tasks
- arxiv url: http://arxiv.org/abs/2211.14865v1
- Date: Sun, 27 Nov 2022 15:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 17:26:41.505714
- Title: Understanding BLOOM: An empirical study on diverse NLP tasks
- Title(参考訳): BLOOMの理解 : 多様なNLPタスクに関する実証的研究
- Authors: Parag Pravin Dakle, SaiKrishna Rallabandi and Preethi Raghavan
- Abstract要約: 本稿では,様々な自然言語処理タスクにおいて,より小さなBLOOMモデル変種の評価を行う。
BLOOMは、すべてのGLUEタスク(WNLIを除く)、質問応答、テキスト生成で性能が低い。
WNLIでは56.3%の精度で、MIT MoviesやATISのデータセットでプロンプトベースの数発のテキスト抽出が可能である。
- 参考スコア(独自算出の注目度): 3.884530687475798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present an evaluation of smaller BLOOM model variants
(350m/560m and 1b3/1b7) on various natural language processing tasks. This
includes GLUE - language understanding, prompt-based zero-shot and few-shot
text classification and extraction, question answering, prompt-based text
generation, and multi-lingual text classification to understand model
strengths/weaknesses and behavior. Empirical results show that BLOOM variants
under-perform on all GLUE tasks (except WNLI), question-answering, and text
generation. The variants bloom for WNLI, with an accuracy of 56.3%, and for
prompt-based few-shot text extraction on MIT Movies and ATIS datasets. The
BLOOM variants on average have 7% greater accuracy over GPT-2 and GPT-Neo
models on Director and Airline Name extraction from MIT Movies and ATIS
datasets, respectively.
- Abstract(参考訳): 本研究では,様々な自然言語処理タスクにおいて,より小さなBLOOMモデル(350m/560mおよび1b3/1b7)の評価を行う。
GLUE - 言語理解、プロンプトベースのゼロショット、少数ショットのテキスト分類と抽出、質問応答、プロンプトベースのテキスト生成、モデルの強みや弱さや振る舞いを理解するための多言語テキスト分類。
実験結果から、BLOOMの変種は(WNLIを除く)すべてのGLUEタスク、質問応答、テキスト生成で性能が低いことが示された。
WNLIでは56.3%の精度で、MIT MoviesやATISのデータセットでプロンプトベースの数発のテキスト抽出が可能である。
BLOOM の変種は、それぞれMIT Movies と ATIS のデータセットから抽出された GPT-2 と GPT-Neo のモデルよりも7%精度が高い。
関連論文リスト
- Exploration of Masked and Causal Language Modelling for Text Generation [6.26998839917804]
本稿では,テキスト生成タスクにおける因果言語モデリング手法の広範な比較を行う。
まず、定量的な指標を用いて、コヒーレンスと文法的正当性を分析する定性的な人的評価を行う。
その結果、すべてのデータセットでテキスト生成において、CLMは一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-21T09:33:31Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Generative Large Language Models Are All-purpose Text Analytics Engines:
Text-to-text Learning Is All Your Need [24.672621081551675]
テキスト・トゥ・テキスト・ラーニング(text-to-text learning)として7つの重要なNLPタスクを定式化し,1つの総合的臨床LCMを用いて解決した。
提案手法は,7つの主要なNLPタスクのうち5つに対して,1つの統合生成LDMを用いて最先端の性能を達成した。
論文 参考訳(メタデータ) (2023-12-11T04:00:26Z) - Token Prediction as Implicit Classification to Identify LLM-Generated
Text [37.89852204279844]
本稿では,テキスト生成に関わる大きな言語モデル (LLM) を識別するための新しいアプローチを提案する。
ベースLMに新たな分類層を追加する代わりに、分類タスクを次の注意すべき予測タスクとして再設定する。
実験のバックボーンとしてText-to-Text Transfer Transformer (T5) モデルを用いる。
論文 参考訳(メタデータ) (2023-11-15T06:33:52Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。